2602.05191v1 Feb 05, 2026 cs.LG

Double-P: 계층적 Top-P 희소 어텐션 - 긴 문맥 LLM을 위한 방법

Double-P: Hierarchical Top-P Sparse Attention for Long-Context LLMs

Jishen Zhao
Jishen Zhao
Citations: 13
h-index: 2
Zhongming Yu
Zhongming Yu
Citations: 122
h-index: 4
Mingu Lee
Mingu Lee
Citations: 139
h-index: 7
Wentao Ni
Wentao Ni
Citations: 13
h-index: 3
Hong Cai
Hong Cai
Citations: 111
h-index: 6
Kangqi Zhang
Kangqi Zhang
Citations: 24
h-index: 3
Oren Nelson
Oren Nelson
Citations: 1
h-index: 1
F. Porikli
F. Porikli
Citations: 593
h-index: 9
Jongryool Kim
Jongryool Kim
Citations: 19
h-index: 2
Zhijian Liu
Zhijian Liu
Citations: 20
h-index: 2

대규모 언어 모델(LLM)에서 긴 문맥 추론이 중요해짐에 따라, 증가하는 키-값 캐시에 대한 어텐션 연산은 주요 병목 현상으로 작용하며, 이를 해결하기 위한 희소 어텐션이 중요한 역할을 합니다. 고정된 예산 내에서 작동하는 Top-K 희소 어텐션은 헤드 및 레이어 간의 이질적인 어텐션 분포에 적응하기 어렵습니다. 반면, Top-P 희소 어텐션은 어텐션의 중요도를 직접적으로 보존하며 더 강력한 정확도 보장을 제공합니다. 하지만 기존의 Top-P 방법들은 Top-P 정확도, 선택 오버헤드, 그리고 희소 어텐션 비용을 동시에 최적화하지 못하여 전체적인 효율성이 제한됩니다. 본 논문에서는 모든 단계를 최적화하는 계층적 희소 어텐션 프레임워크인 Double-P를 제안합니다. Double-P는 먼저 클러스터 레벨에서 크기 가중 중심점을 사용하여 거칠게 Top-P 추정을 수행한 후, 필요할 때만 토큰 레벨의 어텐션 연산을 할당하는 두 번째 Top-P 단계를 통해 연산을 적응적으로 개선합니다. 다양한 긴 문맥 벤치마크에서 Double-P는 거의 무시할 만한 정확도 손실을 보이면서, 어텐션 연산 오버헤드를 최대 1.8배 줄이고, 최첨단 고정 예산 희소 어텐션 방법에 비해 최대 1.3배의 엔드-투-엔드 디코딩 속도 향상을 달성했습니다.

Original Abstract

As long-context inference becomes central to large language models (LLMs), attention over growing key-value caches emerges as a dominant decoding bottleneck, motivating sparse attention for scalable inference. Fixed-budget top-k sparse attention cannot adapt to heterogeneous attention distributions across heads and layers, whereas top-p sparse attention directly preserves attention mass and provides stronger accuracy guarantees. Existing top-p methods, however, fail to jointly optimize top-p accuracy, selection overhead, and sparse attention cost, which limits their overall efficiency. We present Double-P, a hierarchical sparse attention framework that optimizes all three stages. Double-P first performs coarse-grained top-p estimation at the cluster level using size-weighted centroids, then adaptively refines computation through a second top-p stage that allocates token-level attention only when needed. Across long-context benchmarks, Double-P consistently achieves near-zero accuracy drop, reducing attention computation overhead by up to 1.8x and delivers up to 1.3x end-to-end decoding speedup over state-of-the-art fixed-budget sparse attention methods.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!