2602.02195v1 Feb 02, 2026 cs.LG

선형 어텐션 LLM에서 상태 순위 동역학

State Rank Dynamics in Linear Attention LLMs

Jun Xu
Jun Xu
Citations: 4
h-index: 1
Jiuchong Gao
Jiuchong Gao
Citations: 5
h-index: 1
Jinghua Hao
Jinghua Hao
Citations: 5
h-index: 1
Renqing He
Renqing He
Citations: 301
h-index: 9
Yan Liu
Yan Liu
Citations: 1
h-index: 1
Zhanyu Ma
Zhanyu Ma
Citations: 6
h-index: 1
Heng Zhou
Heng Zhou
Citations: 136
h-index: 5
Tong Su
Tong Su
Citations: 149
h-index: 6
Ao Sun
Ao Sun
Citations: 11
h-index: 1
Hongtao Zhang
Hongtao Zhang
Citations: 0
h-index: 0
Yixuan Ma
Yixuan Ma
Citations: 20
h-index: 2
Yi Qin
Yi Qin
Citations: 3
h-index: 1

선형 어텐션 대규모 언어 모델(LLM)은 문맥 정보를 고정 크기의 상태 행렬로 압축하여 상수 시간 추론을 가능하게 하는 매력적인 순환 구조를 제공합니다. 그러나 이러한 압축된 상태의 내부 동역학은 아직 대부분 불투명합니다. 본 연구에서는 최첨단 선형 어텐션 모델의 런타임 상태 동역학에 대한 종합적인 연구를 제시합니다. 우리는 '상태 순위 계층화(State Rank Stratification)'라는 근본적인 현상을 발견했습니다. 이 현상은 선형 어텐션 헤드 간의 뚜렷한 스펙트럼 분기를 특징으로 합니다. 즉, 한 그룹은 효과적인 순위가 0에 가까운 값을 오실레이션하는 반면, 다른 그룹은 상한 값으로 수렴하는 급격한 성장을 보입니다. 다양한 추론 환경에서의 광범위한 실험 결과, 이러한 동역학은 놀라울 정도로 일관성을 유지하는 것으로 나타났습니다. 이는 헤드의 식별성(낮은 순위 또는 높은 순위)이 입력 데이터에 의존적인 일시적인 상태가 아니라, 사전 훈련 중에 획득하는 고유한 구조적 특성임을 시사합니다. 또한, 우리의 진단적 분석 결과, 놀라운 기능적 차이가 발견되었습니다. 낮은 순위 헤드는 모델 추론에 필수적이지만, 높은 순위 헤드는 상당한 중복성을 나타냅니다. 이러한 통찰력을 바탕으로, 우리는 '공동 순위-정규화 가지치기(Joint Rank-Norm Pruning)'라는 제로샷 전략을 제안했습니다. 이 전략은 모델 정확도를 크게 유지하면서 KV 캐시 오버헤드를 38.9% 줄이는 데 성공했습니다.

Original Abstract

Linear Attention Large Language Models (LLMs) offer a compelling recurrent formulation that compresses context into a fixed-size state matrix, enabling constant-time inference. However, the internal dynamics of this compressed state remain largely opaque. In this work, we present a comprehensive study on the runtime state dynamics of state-of-the-art Linear Attention models. We uncover a fundamental phenomenon termed State Rank Stratification, characterized by a distinct spectral bifurcation among linear attention heads: while one group maintains an effective rank oscillating near zero, the other exhibits rapid growth that converges to an upper bound. Extensive experiments across diverse inference contexts reveal that these dynamics remain strikingly consistent, indicating that the identity of a head,whether low-rank or high-rank,is an intrinsic structural property acquired during pre-training, rather than a transient state dependent on the input data. Furthermore, our diagnostic probes reveal a surprising functional divergence: low-rank heads are indispensable for model reasoning, whereas high-rank heads exhibit significant redundancy. Leveraging this insight, we propose Joint Rank-Norm Pruning, a zero-shot strategy that achieves a 38.9\% reduction in KV-cache overhead while largely maintaining model accuracy.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!