안정성은 중복을 의미한다: 효율적인 장문 컨텍스트 프리필링을 위한 델타 어텐션 선택적 중단
Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling
대규모 언어 모델(LLM)과 대규모 멀티모달 모델(LMM)에서 장문 컨텍스트 환경에서 발생하는 사전 계산 비용은 상당한 병목 현상을 야기합니다. 토큰 가지치기는 시퀀스 길이를 줄일 수 있지만, 기존 방법들은 FlashAttention과 같은 하드웨어 효율적인 커널과의 호환성을 저해하는 휴리스틱에 의존합니다. 본 연구에서는 토큰이 extit{의미론적 고정점}으로 수렴하여 추가적인 처리가 불필요해진다는 점을 발견했습니다. 이에, 본 연구에서는 레이어별 자체 어텐션 메커니즘의 업데이트 동역학을 모니터링하여 안정화된 토큰을 선택적으로 중단하는, 학습이 필요 없는 정책인 Delta Attention Selective Halting (DASH)을 제안합니다. 광범위한 실험 결과는 DASH가 다양한 언어 및 비전 벤치마크에서 일반화 성능을 보이며, 모델 정확도를 유지하면서 하드웨어 효율성을 높여 사전 계산 속도를 크게 향상시킴을 확인했습니다. 코드는 https://github.com/verach3n/DASH.git 에서 공개될 예정입니다.
Prefilling computational costs pose a significant bottleneck for Large Language Models (LLMs) and Large Multimodal Models (LMMs) in long-context settings. While token pruning reduces sequence length, prior methods rely on heuristics that break compatibility with hardware-efficient kernels like FlashAttention. In this work, we observe that tokens evolve toward \textit{semantic fixing points}, making further processing redundant. To this end, we introduce Delta Attention Selective Halting (DASH), a training-free policy that monitors the layer-wise update dynamics of the self-attention mechanism to selectively halt stabilized tokens. Extensive evaluation confirms that DASH generalizes across language and vision benchmarks, delivering significant prefill speedups while preserving model accuracy and hardware efficiency. Code will be released at https://github.com/verach3n/DASH.git.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.