비직교 인자 분해를 이용한 비전 트랜스포머
Bi-Orthogonal Factor Decomposition for Vision Transformers
비전 트랜스포머의 핵심 연산 원리인 셀프 어텐션은 토큰 간에 어떤 정보가 교환되는지에 대한 체계적인 이해가 부족합니다. 어텐션 맵은 가중치가 집중되는 위치를 나타내지만, 쿼리와 키가 위치, 내용 또는 둘 다를 교환하는지 여부를 알려주지는 않습니다. 본 논문에서는 두 단계로 구성된 분석 프레임워크인 비직교 인자 분해(BFD)를 소개합니다. 첫 번째 단계에서는 ANOVA 기반 분해를 사용하여 토큰 활성화를 통계적으로 직교하는 위치 및 내용 인자로 분리하고, 두 번째 단계에서는 쿼리-키 상호 작용 행렬 QK^T의 특이값 분해(SVD)를 통해 이러한 인자들이 어떻게 통신을 중재하는지 보여주는 비직교 모드를 분석합니다. 위치와 내용이 적절하게 분리되는지 확인한 후, BFD를 최첨단 비전 모델에 적용하여 세 가지 현상을 발견했습니다. (i) 어텐션은 주로 내용 기반으로 작동하며, 내용-내용 상호 작용이 어텐션 에너지의 대부분을 차지하고, 그 다음으로 내용-위치 결합이 나타납니다. DINOv2는 지도 학습 모델보다 내용-위치 상호 작용에 더 많은 에너지를 할당하며, 더 풍부한 모드 스펙트럼에 걸쳐 연산을 분산합니다. (ii) 어텐션 메커니즘은 특화되어 있으며, 헤드는 내용-내용, 내용-위치 및 위치-위치 연산자로 구분되며, 헤드 내의 특이 모드 또한 유사한 특화 현상을 보입니다. (iii) DINOv2의 뛰어난 전체적인 형태 처리 능력은 위치 구조를 동시에 유지하면서 의미 있는 내용을 맥락적으로 풍부하게 만드는 중간 계층에서 비롯됩니다. 전반적으로, BFD는 토큰이 어텐션을 통해 어떻게 상호 작용하는지, 그리고 위치 또는 의미와 같은 어떤 정보적 요인이 그들의 통신을 중재하는지를 보여주며, 비전 트랜스포머 메커니즘에 대한 실질적인 통찰력을 제공합니다.
Self-attention is the central computational primitive of Vision Transformers, yet we lack a principled understanding of what information attention mechanisms exchange between tokens. Attention maps describe where weight mass concentrates; they do not reveal whether queries and keys trade position, content, or both. We introduce Bi-orthogonal Factor Decomposition (BFD), a two-stage analytical framework: first, an ANOVA-based decomposition statistically disentangles token activations into orthogonal positional and content factors; second, SVD of the query-key interaction matrix QK^T exposes bi-orthogonal modes that reveal how these factors mediate communication. After validating proper isolation of position and content, we apply BFD to state-of-the-art vision models and uncover three phenomena.(i) Attention operates primarily through content. Content-content interactions dominate attention energy, followed by content-position coupling. DINOv2 allocates more energy to content-position than supervised models and distributes computation across a richer mode spectrum. (ii) Attention mechanisms exhibit specialization: heads differentiate into content-content, content-position, and position-position operators, while singular modes within heads show analogous specialization. (iii) DINOv2's superior holistic shape processing emerges from intermediate layers that simultaneously preserve positional structure while contextually enriching semantic content. Overall, BFD exposes how tokens interact through attention and which informational factors - positional or semantic - mediate their communication, yielding practical insights into vision transformer mechanisms.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.