2603.05498v1 Mar 05, 2026 cs.AI

스파이크, 희소성, 그리고 집중 지점: 대규모 활성화 및 어텐션 집중 현상의 해부

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Yann LeCun
Yann LeCun
Citations: 3,272
h-index: 19
Shangwen Sun
Shangwen Sun
Citations: 0
h-index: 0
A. Canziani
A. Canziani
Citations: 1,478
h-index: 6
Jiachen Zhu
Jiachen Zhu
Citations: 317
h-index: 4

본 연구에서는 트랜스포머 언어 모델에서 흔히 나타나는 두 가지 현상, 즉 소수의 토큰에서 극단적인 값을 보이는 대규모 활성화 현상과, 의미적 관련성과는 무관하게 특정 토큰이 비정상적으로 많은 어텐션 가중치를 받는 어텐션 집중 현상에 대해 연구합니다. 기존 연구에서는 이러한 현상들이 종종 함께 나타나고 동일한 토큰을 포함하는 경우가 많지만, 그 기능적 역할과 인과 관계는 아직 명확하지 않습니다. 체계적인 실험을 통해, 이러한 현상들의 동시 발생은 현대 트랜스포머 설계의 구조적인 결과라는 것을 보여주며, 두 현상은 서로 관련이 있지만 구별되는 기능을 수행한다는 것을 밝힙니다. 대규모 활성화는 전역적으로 작용하여, 레이어를 거치면서 일관성을 유지하는 거의 상수로 작용하는 은닉 표현을 유도하며, 이는 모델의 암묵적인 파라미터 역할을 합니다. 반면, 어텐션 집중은 국소적으로 작용하여, 어텐션 출력을 여러 헤드에 걸쳐 조절하고 개별 헤드를 단거리 의존성에 편향시킵니다. 우리는 사전 정규화(pre-norm) 구성이 이러한 현상들의 동시 발생을 가능하게 하는 핵심적인 선택임을 확인하고, 이를 제거하면 두 현상이 분리되는 것을 보여줍니다.

Original Abstract

We study two recurring phenomena in Transformer language models: massive activations, in which a small number of tokens exhibit extreme outliers in a few channels, and attention sinks, in which certain tokens attract disproportionate attention mass regardless of semantic relevance. Prior work observes that these phenomena frequently co-occur and often involve the same tokens, but their functional roles and causal relationship remain unclear. Through systematic experiments, we show that the co-occurrence is largely an architectural artifact of modern Transformer design, and that the two phenomena serve related but distinct functions. Massive activations operate globally: they induce near-constant hidden representations that persist across layers, effectively functioning as implicit parameters of the model. Attention sinks operate locally: they modulate attention outputs across heads and bias individual heads toward short-range dependencies. We identify the pre-norm configuration as the key choice that enables the co-occurrence, and show that ablating it causes the two phenomena to decouple.

1 Citations
0 Influential
9.5 Altmetric
48.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!