2601.08297v2 Jan 13, 2026 cs.LG

어텐션에서의 슬래시 패턴 해부: RoPE의 역할

Demystifying the Slash Pattern in Attention: The Role of RoPE

Aixin Sun
Aixin Sun
Citations: 16
h-index: 2
Tianyu Pang
Tianyu Pang
Citations: 429
h-index: 11
Yuan Cheng
Yuan Cheng
Citations: 14
h-index: 3
Fengzhuo Zhang
Fengzhuo Zhang
Citations: 174
h-index: 5
Yunlong Hou
Yunlong Hou
Citations: 34
h-index: 3
Cunxiao Du
Cunxiao Du
Citations: 203
h-index: 6
Chao Du
Chao Du
Citations: 332
h-index: 8
Zhuoran Yang
Zhuoran Yang
Citations: 38
h-index: 3

대규모 언어 모델(LLM)은 종종 슬래시 어텐션 패턴을 나타내는데, 여기서 어텐션 점수가 특정 오프셋 Δ에 해당하는 대각선 아래의 부분에 집중되는 경향이 있습니다. 이러한 패턴은 토큰 간 정보 전달에 중요한 역할을 합니다. 하지만 이러한 패턴은 왜 나타나는 걸까요? 본 논문에서는 경험적 및 이론적 관점에서 이러한 슬래시 지배형 헤드(SDH)의 발생 과정을 규명합니다. 먼저, 오픈 소스 LLM을 분석한 결과, SDH는 모델의 고유한 특성이며, 일반화된 프롬프트에도 적용됨을 확인했습니다. 이러한 고유한 발생을 설명하기 위해, 어텐션 점수를 결정하는 쿼리, 키, 그리고 로터리 포지션 임베딩(RoPE)을 분석했습니다. 우리의 경험적 분석 결과, SDH는 다음 두 가지 특징적인 조건을 갖습니다: (1) 쿼리와 키는 거의 랭크 1에 가깝고, (2) RoPE는 중간 및 고주파 성분으로 지배됩니다. 이러한 조건 하에서, 쿼리와 키는 토큰 간에 거의 동일하며, RoPE의 중간 및 고주파 성분 간의 상호 작용으로 인해 SDH가 발생합니다. 경험적 증거 외에도, 우리는 이러한 조건이 SDH의 발생을 보장하는 데 충분하다는 것을 이론적으로 증명했습니다. 특히, RoPE를 탑재한 얕은 트랜스포머의 학습 동역학을 분석하고, 경사 하강법을 통해 학습된 모델은 SDH를 나타냄을 증명했습니다. SDH는 일반화된 프롬프트에도 적용됩니다.

Original Abstract

Large Language Models (LLMs) often exhibit slash attention patterns, where attention scores concentrate along the $Δ$-th sub-diagonal for some offset $Δ$. These patterns play a key role in passing information across tokens. But why do they emerge? In this paper, we demystify the emergence of these Slash-Dominant Heads (SDHs) from both empirical and theoretical perspectives. First, by analyzing open-source LLMs, we find that SDHs are intrinsic to models and generalize to out-of-distribution prompts. To explain the intrinsic emergence, we analyze the queries, keys, and Rotary Position Embedding (RoPE), which jointly determine attention scores. Our empirical analysis reveals two characteristic conditions of SDHs: (1) Queries and keys are almost rank-one, and (2) RoPE is dominated by medium- and high-frequency components. Under these conditions, queries and keys are nearly identical across tokens, and interactions between medium- and high-frequency components of RoPE give rise to SDHs. Beyond empirical evidence, we theoretically show that these conditions are sufficient to ensure the emergence of SDHs by formalizing them as our modeling assumptions. Particularly, we analyze the training dynamics of a shallow Transformer equipped with RoPE under these conditions, and prove that models trained via gradient descent exhibit SDHs. The SDHs generalize to out-of-distribution prompts.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!