2602.05191v1 Feb 05, 2026 cs.LG

Double-P: 계층적 Top-P 희소 어텐션 - 긴 문맥 LLM을 위한 방법

Double-P: Hierarchical Top-P Sparse Attention for Long-Context LLMs

Jishen Zhao
Jishen Zhao
Citations: 0
h-index: 0
Zhongming Yu
Zhongming Yu
Citations: 91
h-index: 3
Mingu Lee
Mingu Lee
Citations: 115
h-index: 6
Wentao Ni
Wentao Ni
Citations: 3
h-index: 1
Hong Cai
Hong Cai
Citations: 93
h-index: 5
Kangqi Zhang
Kangqi Zhang
Citations: 17
h-index: 3
Oren Nelson
Oren Nelson
Citations: 0
h-index: 0
F. Porikli
F. Porikli
Citations: 759
h-index: 10
Jongryool Kim
Jongryool Kim
Citations: 8
h-index: 1
Zhijian Liu
Zhijian Liu
Citations: 6
h-index: 1

대규모 언어 모델(LLM)에서 긴 문맥 추론이 중요해짐에 따라, 증가하는 키-값 캐시에 대한 어텐션 연산은 주요 병목 현상으로 작용하며, 이를 해결하기 위한 희소 어텐션이 중요한 역할을 합니다. 고정된 예산 내에서 작동하는 Top-K 희소 어텐션은 헤드 및 레이어 간의 이질적인 어텐션 분포에 적응하기 어렵습니다. 반면, Top-P 희소 어텐션은 어텐션의 중요도를 직접적으로 보존하며 더 강력한 정확도 보장을 제공합니다. 하지만 기존의 Top-P 방법들은 Top-P 정확도, 선택 오버헤드, 그리고 희소 어텐션 비용을 동시에 최적화하지 못하여 전체적인 효율성이 제한됩니다. 본 논문에서는 모든 단계를 최적화하는 계층적 희소 어텐션 프레임워크인 Double-P를 제안합니다. Double-P는 먼저 클러스터 레벨에서 크기 가중 중심점을 사용하여 거칠게 Top-P 추정을 수행한 후, 필요할 때만 토큰 레벨의 어텐션 연산을 할당하는 두 번째 Top-P 단계를 통해 연산을 적응적으로 개선합니다. 다양한 긴 문맥 벤치마크에서 Double-P는 거의 무시할 만한 정확도 손실을 보이면서, 어텐션 연산 오버헤드를 최대 1.8배 줄이고, 최첨단 고정 예산 희소 어텐션 방법에 비해 최대 1.3배의 엔드-투-엔드 디코딩 속도 향상을 달성했습니다.

Original Abstract

As long-context inference becomes central to large language models (LLMs), attention over growing key-value caches emerges as a dominant decoding bottleneck, motivating sparse attention for scalable inference. Fixed-budget top-k sparse attention cannot adapt to heterogeneous attention distributions across heads and layers, whereas top-p sparse attention directly preserves attention mass and provides stronger accuracy guarantees. Existing top-p methods, however, fail to jointly optimize top-p accuracy, selection overhead, and sparse attention cost, which limits their overall efficiency. We present Double-P, a hierarchical sparse attention framework that optimizes all three stages. Double-P first performs coarse-grained top-p estimation at the cluster level using size-weighted centroids, then adaptively refines computation through a second top-p stage that allocates token-level attention only when needed. Across long-context benchmarks, Double-P consistently achieves near-zero accuracy drop, reducing attention computation overhead by up to 1.8x and delivers up to 1.3x end-to-end decoding speedup over state-of-the-art fixed-budget sparse attention methods.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!