선형 어텐션 LLM에서 상태 순위 동역학
State Rank Dynamics in Linear Attention LLMs
선형 어텐션 대규모 언어 모델(LLM)은 문맥 정보를 고정 크기의 상태 행렬로 압축하여 상수 시간 추론을 가능하게 하는 매력적인 순환 구조를 제공합니다. 그러나 이러한 압축된 상태의 내부 동역학은 아직 대부분 불투명합니다. 본 연구에서는 최첨단 선형 어텐션 모델의 런타임 상태 동역학에 대한 종합적인 연구를 제시합니다. 우리는 '상태 순위 계층화(State Rank Stratification)'라는 근본적인 현상을 발견했습니다. 이 현상은 선형 어텐션 헤드 간의 뚜렷한 스펙트럼 분기를 특징으로 합니다. 즉, 한 그룹은 효과적인 순위가 0에 가까운 값을 오실레이션하는 반면, 다른 그룹은 상한 값으로 수렴하는 급격한 성장을 보입니다. 다양한 추론 환경에서의 광범위한 실험 결과, 이러한 동역학은 놀라울 정도로 일관성을 유지하는 것으로 나타났습니다. 이는 헤드의 식별성(낮은 순위 또는 높은 순위)이 입력 데이터에 의존적인 일시적인 상태가 아니라, 사전 훈련 중에 획득하는 고유한 구조적 특성임을 시사합니다. 또한, 우리의 진단적 분석 결과, 놀라운 기능적 차이가 발견되었습니다. 낮은 순위 헤드는 모델 추론에 필수적이지만, 높은 순위 헤드는 상당한 중복성을 나타냅니다. 이러한 통찰력을 바탕으로, 우리는 '공동 순위-정규화 가지치기(Joint Rank-Norm Pruning)'라는 제로샷 전략을 제안했습니다. 이 전략은 모델 정확도를 크게 유지하면서 KV 캐시 오버헤드를 38.9% 줄이는 데 성공했습니다.
Linear Attention Large Language Models (LLMs) offer a compelling recurrent formulation that compresses context into a fixed-size state matrix, enabling constant-time inference. However, the internal dynamics of this compressed state remain largely opaque. In this work, we present a comprehensive study on the runtime state dynamics of state-of-the-art Linear Attention models. We uncover a fundamental phenomenon termed State Rank Stratification, characterized by a distinct spectral bifurcation among linear attention heads: while one group maintains an effective rank oscillating near zero, the other exhibits rapid growth that converges to an upper bound. Extensive experiments across diverse inference contexts reveal that these dynamics remain strikingly consistent, indicating that the identity of a head,whether low-rank or high-rank,is an intrinsic structural property acquired during pre-training, rather than a transient state dependent on the input data. Furthermore, our diagnostic probes reveal a surprising functional divergence: low-rank heads are indispensable for model reasoning, whereas high-rank heads exhibit significant redundancy. Leveraging this insight, we propose Joint Rank-Norm Pruning, a zero-shot strategy that achieves a 38.9\% reduction in KV-cache overhead while largely maintaining model accuracy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.