2605.05668v1 May 07, 2026 cs.AI

대규모 시각-언어 모델이 어텐션 메커니즘에 과도하게 의존하는 현상

Large Vision-Language Models Get Lost in Attention

Huahui Yi
Huahui Yi
Citations: 80
h-index: 5
Gongli Xi
Gongli Xi
Citations: 14
h-index: 2
Wendong Wang
Wendong Wang
Citations: 7
h-index: 2
Kun Wang
Kun Wang
Citations: 28
h-index: 3
Liang Lin
Liang Lin
Citations: 38
h-index: 4
Ye Tian
Ye Tian
Citations: 33
h-index: 4
Mengyu Yang
Mengyu Yang
Citations: 14
h-index: 2
Xiaoshuai Hao
Xiaoshuai Hao
Citations: 27
h-index: 2

학습 패러다임이 빠르게 발전함에도 불구하고, 대규모 시각-언어 모델(LVLM)의 디코더는 여전히 잔차 연결 트랜스포머 아키텍처에 기반하고 있습니다. 따라서 내부 모듈의 구체적인 역할을 파악하는 것은 모델의 작동 원리를 이해하고 아키텍처 최적화를 위한 지침을 제공하는 데 매우 중요합니다. 기존의 통계적 접근 방식은 유용한 해석 결과를 제공했지만, 종종 통일된 이론적 기반이 부족했습니다. 이러한 격차를 해소하기 위해, 정보 이론과 기하학에 기반한 통합 프레임워크를 제안하여 잔차 업데이트의 기하학적 및 엔트로피적 특성을 정량화합니다. 이 통합 프레임워크를 적용한 결과, 근본적인 기능적 분리가 드러났습니다. 어텐션은 재구성을 위한 부분 공간 보존 연산자 역할을 하는 반면, FFN(Feed-Forward Network)은 의미 혁신을 주도하는 부분 공간 확장 연산자 역할을 합니다. 놀랍게도, 추가 실험 결과, 학습된 어텐션 가중치를 미리 정의된 값(예: 가우시안 노이즈)으로 대체하면 대부분의 데이터셋에서 기존 모델과 동등하거나 더 나은 성능을 얻을 수 있습니다. 이러한 결과는 현재 메커니즘의 심각한 자원 낭비와 중복성을 드러내며, 최첨단 LVLM이 시각적 컨텍스트를 효율적으로 활용하는 것이 아니라 오히려 어텐션 메커니즘에 과도하게 의존한다는 것을 시사합니다.

Original Abstract

Despite the rapid evolution of training paradigms, the decoder backbone of large vision--language models (LVLMs) remains fundamentally rooted in the residual-connection Transformer architecture. Therefore, deciphering the distinct roles of internal modules is critical for understanding model mechanics and guiding architectural optimization. While prior statistical approaches have provided valuable attribution-based insights, they often lack a unified theoretical basis. To bridge this gap, we propose a unified framework grounded in information theory and geometry to quantify the geometric and entropic nature of residual updates. Applying this unified framework reveals a fundamental functional decoupling: Attention acts as a subspace-preserving operator focused on reconfiguration, whereas FFNs serve as subspace-expanding operators driving semantic innovation. Strikingly, further experiments demonstrate that replacing learned attention weights with predefined values (e.g., Gaussian noise) yields comparable or even superior performance across a majority of datasets relative to vanilla models. These results expose severe misallocation and redundancy in current mechanisms, suggesting that state-of-the-art LVLMs effectively ``get lost in attention'' rather than efficiently leveraging visual context.

2 Citations
0 Influential
2.5 Altmetric
14.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!