2602.08426v1 Feb 09, 2026 cs.CL

Prism: 스펙트럼 인지 블록 희소 어텐션

Prism: Spectral-Aware Block-Sparse Attention

Xinghao Wang
Xinghao Wang
Citations: 232
h-index: 5
Pengyu Wang
Pengyu Wang
Citations: 115
h-index: 5
Xiaoran Liu
Xiaoran Liu
Citations: 404
h-index: 10
Fangxu Liu
Fangxu Liu
Citations: 11
h-index: 2
Kai Song
Kai Song
Citations: 11
h-index: 2
Xipeng Qiu
Xipeng Qiu
Citations: 245
h-index: 7
J. Chu
J. Chu
Citations: 9
h-index: 2

블록 희소 어텐션은 긴 문맥을 가진 LLM의 사전 학습 속도를 가속화하는 데 유망하지만, 관련 블록을 효율적으로 식별하는 것이 여전히 병목 현상입니다. 기존 방법은 일반적으로 블록의 중요도를 추정하기 위한 프록시로서의 어텐션을 사용하지만, 종종 비용이 많이 드는 토큰 단위 검색 또는 점수 부여를 수행하여 상당한 선택 오버헤드를 발생시킵니다. 본 연구에서는 표준 어텐션의 부정확성이 평균 풀링에서 비롯된 이론적인 근본 원인, 즉 평균 풀링과 로터리 포지셔널 임베딩(RoPE) 간의 상호 작용에 기인한다는 것을 밝힙니다. 우리는 평균 풀링이 고주파 성분에서 파괴적인 간섭을 유발하는 저주파 필터 역할을 하여, 지역적인 위치 정보(예: 슬래시 패턴)에 대한 '맹점'을 만들어낸다는 것을 증명합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 학습이 필요 없는 스펙트럼 인지 접근 방식인 Prism을 제안합니다. Prism은 블록 선택을 고주파 및 저주파 분기로 분해합니다. 에너지 기반 온도 보정(energy-based temperature calibration)을 적용하여 Prism은 풀링된 표현에서 감쇠된 위치 신호를 직접 복원하여, 순수하게 블록 수준의 연산을 사용하여 블록 중요도를 추정함으로써 효율성을 향상시킵니다. 광범위한 실험 결과는 Prism이 전체 어텐션과 동일한 정확도를 유지하면서 최대 $f{5.1배}$의 속도 향상을 제공한다는 것을 확인합니다.

Original Abstract

Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bottleneck. Existing methods typically employ coarse-grained attention as a proxy for block importance estimation, but often resort to expensive token-level searching or scoring, resulting in significant selection overhead. In this work, we trace the inaccuracy of standard coarse-grained attention via mean pooling to a theoretical root cause: the interaction between mean pooling and Rotary Positional Embeddings (RoPE). We prove that mean pooling acts as a low-pass filter that induces destructive interference in high-frequency dimensions, effectively creating a "blind spot" for local positional information (e.g., slash patterns). To address this, we introduce Prism, a training-free spectral-aware approach that decomposes block selection into high-frequency and low-frequency branches. By applying energy-based temperature calibration, Prism restores the attenuated positional signals directly from pooled representations, enabling block importance estimation using purely block-level operations, thereby improving efficiency. Extensive evaluations confirm that Prism maintains accuracy parity with full attention while delivering up to $\mathbf{5.1\times}$ speedup.

2 Citations
0 Influential
5 Altmetric
27.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!