2601.17367v2 Jan 24, 2026 cs.CL

Elastic Attention: 효율적인 트랜스포머를 위한 테스트 시점 적응형 희소성 비율

Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

Zhi Hong
Zhi Hong
Citations: 2,066
h-index: 2
Yi Yang
Yi Yang
Citations: 570
h-index: 12
Zecheng Tang
Zecheng Tang
Soochow University
Citations: 1,028
h-index: 9
Juntao Li
Juntao Li
Citations: 382
h-index: 11
Quantong Qiu
Quantong Qiu
Citations: 17
h-index: 3
Haiyan Xiang
Haiyan Xiang
Citations: 5
h-index: 1
Kebin Liu
Kebin Liu
Citations: 6
h-index: 1
Qingqing Dang
Qingqing Dang
Citations: 4,969
h-index: 12
Min Zhang
Min Zhang
Citations: 74
h-index: 3

표준 어텐션 메커니즘의 2차 복잡성은 긴 문맥에서 대규모 언어 모델(LLM)의 확장성에 심각한 병목 현상을 야기합니다. 단일 모델 내에서 희소 어텐션과 완전 어텐션을 결합하는 하이브리드 어텐션 전략은 실행 가능한 해결책을 제공하지만, 일반적으로 정적 계산 비율(즉, 희소 어텐션과 완전 어텐션의 고정된 비율)을 사용하며, 추론 과정에서 다운스트림 작업의 다양한 희소성 민감도에 적응하지 못합니다. 이러한 문제를 해결하기 위해, 입력에 따라 모델의 전체적인 희소성을 동적으로 조정할 수 있는 Elastic Attention을 제안합니다. 이는 기존의 사전 훈련된 모델에 경량의 어텐션 라우터를 통합하여 구현되며, 어텐션 라우터는 각 어텐션 헤드를 서로 다른 계산 모드로 동적으로 할당합니다. 8개의 A800 GPU를 사용하여 12시간 동안 학습한 결과, 우리 방법은 모델이 강력한 성능과 효율적인 추론을 동시에 달성할 수 있도록 합니다. 널리 사용되는 LLM에 대한 세 가지 긴 문맥 벤치마크 실험에서 우리 방법의 우수성이 입증되었습니다.

Original Abstract

The quadratic complexity of standard attention mechanisms poses a significant scalability bottleneck for large language models (LLMs) in long-context scenarios. While hybrid attention strategies that combine sparse and full attention within a single model offer a viable solution, they typically employ static computation ratios (i.e., fixed proportions of sparse versus full attention) and fail to adapt to the varying sparsity sensitivities of downstream tasks during inference. To address this issue, we propose Elastic Attention, which allows the model to dynamically adjust its overall sparsity based on the input. This is achieved by integrating a lightweight Attention Router into the existing pretrained model, which dynamically assigns each attention head to different computation modes. Within only 12 hours of training on 8xA800 GPUs, our method enables models to achieve both strong performance and efficient inference. Experiments across three long-context benchmarks on widely-used LLMs demonstrate the superiority of our method.

0 Citations
0 Influential
6 Altmetric
30.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!