TP-Blend: 텍스트 프롬프트 어텐션 페어링을 통한 디퓨전 모델에서의 정밀한 객체-스타일 블렌딩
TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models
현재 텍스트 기반 디퓨전 편집기는 단일 객체 교체에는 효과적이지만, 새로운 객체와 새로운 스타일을 동시에 도입하는 데 어려움을 겪습니다. 본 논문에서는 Twin-Prompt Attention Blend (TP-Blend)라는 경량의 학습이 필요 없는 프레임워크를 제시합니다. TP-Blend는 두 개의 개별적인 텍스트 프롬프트를 입력받습니다. 하나의 프롬프트는 블렌딩할 객체를 지정하고, 다른 프롬프트는 목표 스타일을 정의합니다. 그리고 이 두 프롬프트를 단일 디노이징 과정에 통합합니다. TP-Blend는 두 가지 상호 보완적인 어텐션 프로세서로 작동합니다. 첫 번째, Cross-Attention Object Fusion (CAOF)은 헤드별 어텐션을 평균화하여 각 프롬프트에 강하게 반응하는 공간적 토큰을 찾습니다. 그런 다음, 엔트로피 정규화된 최적 수송 문제를 풀어 완전한 멀티-헤드 특징 벡터를 해당 위치에 재할당합니다. CAOF는 모든 헤드의 전체 결합 차원(예: SD-XL의 경우 640차원)에서 특징 벡터를 업데이트하여 풍부한 헤드 간 상관 관계를 유지하면서도 메모리 사용량을 낮춥니다. 두 번째, Self-Attention Style Fusion (SASF)은 각 셀프-어텐션 레이어에서 Detail-Sensitive Instance Normalization을 통해 스타일을 주입합니다. 경량의 1차원 가우시안 필터가 저주파 및 고주파 성분을 분리하며, 고주파 잔여 성분만 블렌딩하여 전역적인 형상을 방해하지 않으면서 브러쉬 스트로크 수준의 질감을 부여합니다. SASF는 또한 스타일 프롬프트에서 파생된 키(Key)와 밸류(Value) 행렬을 교환하여 객체 융합에 독립적인 컨텍스트 인식 텍스처 변조를 적용합니다. 광범위한 실험 결과, TP-Blend는 콘텐츠와 외관 모두에 대한 정밀한 제어를 제공하는 고해상도의 사실적인 편집 결과를 생성하며, 정량적 충실도, 지각적 품질 및 추론 속도 측면에서 기존 방법보다 우수한 성능을 보입니다.
Current text-conditioned diffusion editors handle single object replacement well but struggle when a new object and a new style must be introduced simultaneously. We present Twin-Prompt Attention Blend (TP-Blend), a lightweight training-free framework that receives two separate textual prompts, one specifying a blend object and the other defining a target style, and injects both into a single denoising trajectory. TP-Blend is driven by two complementary attention processors. Cross-Attention Object Fusion (CAOF) first averages head-wise attention to locate spatial tokens that respond strongly to either prompt, then solves an entropy-regularised optimal transport problem that reassigns complete multi-head feature vectors to those positions. CAOF updates feature vectors at the full combined dimensionality of all heads (e.g., 640 dimensions in SD-XL), preserving rich cross-head correlations while keeping memory low. Self-Attention Style Fusion (SASF) injects style at every self-attention layer through Detail-Sensitive Instance Normalization. A lightweight one-dimensional Gaussian filter separates low- and high-frequency components; only the high-frequency residual is blended back, imprinting brush-stroke-level texture without disrupting global geometry. SASF further swaps the Key and Value matrices with those derived from the style prompt, enforcing context-aware texture modulation that remains independent of object fusion. Extensive experiments show that TP-Blend produces high-resolution, photo-realistic edits with precise control over both content and appearance, surpassing recent baselines in quantitative fidelity, perceptual quality, and inference speed.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.