어텐션 싱크의 구조적 기원: 분산 불일치, 슈퍼 뉴런, 그리고 차원 불균형
The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons, and Dimension Disparity
대규모 언어 모델(LLM)에서 초기 토큰이 비례적으로 더 많은 어텐션 점수를 차지하는 '어텐션 싱크' 현상은 널리 나타나지만, 그 구조적 기원은 여전히 명확하지 않습니다. 본 연구는 이 현상에 대한 '기계적 설명'을 제공합니다. 먼저, 우리는 어텐션 메커니즘 내의 값 집계 과정에서 발생하는 체계적인 분산 불일치가 어텐션 싱크의 근본 원인임을 밝힙니다. 또한, 피드 포워드 네트워크(FFN) 레이어 내의 슈퍼 뉴런 활성화가 이 불일치를 크게 증폭시킨다는 것을 보여줍니다. 특히, 채널 희소 다운 프로젝션은 첫 번째 토큰의 표현에서 차원 불균형을 유발하며, 이는 어텐션 싱크가 구조적인 고정점 역할을 하도록 만듭니다. 우리는 두 가지 제어된 실험을 통해 이러한 인과 관계를 검증합니다. (i) 어텐션 마스크 수정으로 집계 효과를 분리하고, (ii) 특정 토큰 표현의 분산을 증폭시키는 실험입니다. 두 가지 실험 모두 임의의 위치에서 어텐션 싱크를 재현할 수 있습니다. 이러한 기계적인 이해는 어텐션 싱크 형성을 체계적으로 제어하기 위한 기반을 제공합니다. 마지막으로, 개념 증명으로서, 사전 훈련 과정에서 값 집계 출력을 안정화하는 아키텍처 수정 방법인 '헤드 단위 RMSNorm'을 제안합니다. 실험 결과, 위치별 통계적 균형을 회복하면 수렴 속도가 크게 향상됨을 확인했습니다.
Despite the prevalence of the attention sink phenomenon in Large Language Models (LLMs), where initial tokens disproportionately monopolize attention scores, its structural origins remain elusive. This work provides a \textit{mechanistic explanation} for this phenomenon. First, we trace its root to the value aggregation process inherent in self-attention, which induces a systematic variance discrepancy. We further demonstrate that this discrepancy is drastically amplified by the activation of super neurons within Feed-Forward Network (FFN) layers. Specifically, the channel-sparse down-projections trigger a dimension disparity of the first-token representation, necessitating the formation of attention sinks as a structural anchor. Then, we validate this causal chain through two controlled interventions: (i) isolating the aggregation effect via attention mask modifications and (ii) amplifying the variance of targeted token representations. Both interventions can replicate attention sinks at arbitrary positions. Our mechanistic understanding offers a foundation for the systematic control of sink formation. Finally, as a proof of concept, we propose \textit{head-wise RMSNorm}, an architectural modification that stabilizes value aggregation outputs during pre-training. Our experiments demonstrate that restoring statistical parity across positions significantly accelerates convergence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.