2602.03560v1 Feb 03, 2026 cs.CL

HySparse: 오라클 토큰 선택 및 KV 캐시 공유를 갖는 하이브리드 희소 어텐션 아키텍처

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Fuli Luo
Fuli Luo
Citations: 11,534
h-index: 10
Liang Zhao
Liang Zhao
Citations: 120
h-index: 3
Bo Yang
Bo Yang
Citations: 338
h-index: 7
Yizhao Gao
Yizhao Gao
Citations: 51
h-index: 2
Jianyu Wei
Jianyu Wei
Citations: 63
h-index: 3
Qihao Zhang
Qihao Zhang
Citations: 31
h-index: 3
Yu Cheng
Yu Cheng
Citations: 53
h-index: 2
Shimao Chen
Shimao Chen
Citations: 151
h-index: 6
Zheng-Yu Tang
Zheng-Yu Tang
Citations: 101
h-index: 4
Zi-Ang Jiang
Zi-Ang Jiang
Citations: 95
h-index: 3
Yi-Hao Song
Yi-Hao Song
Citations: 146
h-index: 5
Hailin Zhang
Hailin Zhang
Citations: 4
h-index: 1
Gang Wang
Gang Wang
Citations: 43
h-index: 2
Shijie Cao
Shijie Cao
Citations: 75
h-index: 4

본 연구에서는 Hybrid Sparse Attention (HySparse)이라는 새로운 아키텍처를 소개합니다. HySparse는 각 전체 어텐션 레이어를 여러 개의 희소 어텐션 레이어로 번갈아 배치합니다. 개념적으로 간단하지만, HySparse는 각 희소 레이어의 토큰 선택 및 KV 캐시를 이전 전체 어텐션 레이어로부터 직접 파생시킵니다. 이러한 아키텍처는 기존의 희소 어텐션 방법의 두 가지 근본적인 한계를 해결합니다. 첫째, 기존 방식은 일반적으로 토큰의 중요도를 예측하기 위한 추가적인 프록시를 사용하며, 이는 추가적인 복잡성을 야기하고 잠재적으로 최적의 성능을 달성하지 못할 수 있습니다. 반면에, HySparse는 전체 어텐션 레이어를 중요한 토큰을 식별하는 정확한 '오라클'로 활용합니다. 둘째, 기존의 희소 어텐션 설계는 종종 계산량을 줄이지만 KV 캐시를 절약하지 못합니다. HySparse는 희소 어텐션 레이어가 전체 어텐션의 KV 캐시를 재사용할 수 있도록 하여 계산량과 메모리 모두를 줄입니다. 우리는 7B 밀집 모델과 80B MoE 모델 모두에서 HySparse를 평가했습니다. 모든 설정에서 HySparse는 전체 어텐션 및 하이브리드 SWA 기준 모델보다 일관되게 우수한 성능을 보였습니다. 특히, 49개의 총 레이어를 가진 80B MoE 모델에서 전체 어텐션을 사용하는 레이어가 5개에 불과했지만, HySparse는 상당한 성능 향상을 달성하면서 KV 캐시 저장 공간을 거의 10배 줄였습니다.

Original Abstract

This work introduces Hybrid Sparse Attention (HySparse), a new architecture that interleaves each full attention layer with several sparse attention layers. While conceptually simple, HySparse strategically derives each sparse layer's token selection and KV caches directly from the preceding full attention layer. This architecture resolves two fundamental limitations of prior sparse attention methods. First, conventional approaches typically rely on additional proxies to predict token importance, introducing extra complexity and potentially suboptimal performance. In contrast, HySparse uses the full attention layer as a precise oracle to identify important tokens. Second, existing sparse attention designs often reduce computation without saving KV cache. HySparse enables sparse attention layers to reuse the full attention KV cache, thereby reducing both computation and memory. We evaluate HySparse on both 7B dense and 80B MoE models. Across all settings, HySparse consistently outperforms both full attention and hybrid SWA baselines. Notably, in the 80B MoE model with 49 total layers, only 5 layers employ full attention, yet HySparse achieves substantial performance gains while reducing KV cache storage by nearly 10x.

2 Citations
0 Influential
5 Altmetric
27.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!