2602.06850v1 Feb 06, 2026 cs.CV

다중 조건 DiT 재고: 위치 정렬 및 키워드 범위를 통한 불필요한 어텐션 제거

Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping

Chao Zhou
Chao Zhou
Citations: 5
h-index: 2
Tianyi Wei
Tianyi Wei
NTU
Citations: 1,374
h-index: 10
Yiling Chen
Yiling Chen
Citations: 1
h-index: 1
Wenbo Zhou
Wenbo Zhou
Citations: 3,500
h-index: 23
Nenghai Yu
Nenghai Yu
Citations: 80
h-index: 3

최신 텍스트-이미지 생성 모델은 프롬프트 기반 생성에서 뛰어난 성능을 보이지만, 특정 사용자의 요구 사항, 예를 들어 공간적 레이아웃이나 피사체의 외관과 같은 세밀한 제어 능력은 종종 부족합니다. 다중 조건 제어는 이러한 문제를 해결하지만, 확산 트랜스포머(DiT)에 통합될 때, 기존의 '연결 후 어텐션' 방식은 조건의 수가 증가함에 따라 2차적인 계산 및 메모리 오버헤드를 발생시켜 병목 현상을 유발합니다. 저희의 분석 결과, 이러한 교차 모달 상호 작용의 상당 부분은 공간적으로 또는 의미적으로 중복됩니다. 이에, 저희는 이러한 중복을 제거하도록 설계된 매우 효율적인 프레임워크인 위치 정렬 및 키워드 범위 어텐션(PKA)을 제안합니다. 특히, 위치 정렬 어텐션(PAA)은 국소적인 패치 정렬을 통해 공간적 제어를 선형화하고, 키워드 범위 어텐션(KSA)은 의미를 고려한 마스크를 통해 관련 없는 피사체 기반 상호 작용을 제거합니다. 또한, 효율적인 학습을 위해, 저희는 중요한 노이즈 제거 단계에 대한 학습 목표를 재가중하여 수렴 속도를 크게 가속화하고 조건부 충실도를 향상시키는 조건부 민감도 인식 샘플링(CSAS) 전략을 도입했습니다. 실험 결과, PKA는 추론 속도를 10.0배 향상시키고 VRAM 사용량을 5.1배 절약하여, 고품질의 다중 조건 생성에 대한 확장 가능하고 리소스 효율적인 솔루션을 제공합니다.

Original Abstract

While modern text-to-image models excel at prompt-based generation, they often lack the fine-grained control necessary for specific user requirements like spatial layouts or subject appearances. Multi-condition control addresses this, yet its integration into Diffusion Transformers (DiTs) is bottlenecked by the conventional ``concatenate-and-attend'' strategy, which suffers from quadratic computational and memory overhead as the number of conditions scales. Our analysis reveals that much of this cross-modal interaction is spatially or semantically redundant. To this end, we propose Position-aligned and Keyword-scoped Attention (PKA), a highly efficient framework designed to eliminate these redundancies. Specifically, Position-Aligned Attention (PAA) linearizes spatial control by enforcing localized patch alignment, while Keyword-Scoped Attention (KSA) prunes irrelevant subject-driven interactions via semantic-aware masking. To facilitate efficient learning, we further introduce a Conditional Sensitivity-Aware Sampling (CSAS) strategy that reweights the training objective towards critical denoising phases, drastically accelerating convergence and enhancing conditional fidelity. Empirically, PKA delivers a 10.0$\times$ inference speedup and a 5.1$\times$ VRAM saving, providing a scalable and resource-friendly solution for high-fidelity multi-conditioned generation.

0 Citations
0 Influential
11.5 Altmetric
57.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!