주의 집중이 필요합니다: 주의 할당에 대한 통합적 관점
Attention Needs to Focus: A Unified Perspective on Attention Allocation
최신 대규모 언어 모델(LLM)의 핵심인 트랜스포머 아키텍처는 시퀀스 모델링 분야에서 놀라운 성공을 거두었으며, 이는 주로 어텐션 메커니즘 덕분입니다. 그러나 강력함에도 불구하고, 표준 어텐션 메커니즘은 잘 알려진 문제점, 즉 표현 붕괴(representational collapse)와 어텐션 싱크(attention sink)를 가지고 있습니다. 기존 연구에서는 이러한 문제점에 대한 해결책이 제안되었지만, 이들은 종종 개별적으로 연구되어 그 깊은 연관성이 가려져 왔습니다. 본 논문에서는 통합적인 관점을 제시하며, 두 문제점 모두 잘못된 어텐션 할당에서 비롯된다는 것을 주장합니다. 우리는 두 가지 실패 모드를 식별했습니다. 1) 어텐션 과부하(Attention Overload): 토큰들이 유사한 높은 가중치를 받아 의미적 특징이 흐려져 표현 붕괴가 발생합니다. 2) 어텐션 과소부하(Attention Underload): 어떤 토큰도 의미적으로 관련이 없지만, 어텐션은 여전히 분산되어야 하므로, 관련 없는 부분에 집중되는 현상(어텐션 싱크)이 발생합니다. 이러한 통찰력을 바탕으로, 더욱 집중된 어텐션 분산을 위해 설계된 새로운 메커니즘인 Lazy Attention을 소개합니다. 과부하를 완화하기 위해, Lazy Attention은 헤드와 차원 모두에서 위치 차별화를 사용하여 토큰의 구분을 명확하게 합니다. 과소부하를 해결하기 위해, 표준 소프트맥스 제약을 완화하여 관련 없는 토큰에 대한 어텐션을 억제하는 수정된 정규화 함수인 Elastic-Softmax를 사용합니다. FineWeb-Edu 코퍼스를 사용하여 9가지 다양한 벤치마크에서 평가한 결과, Lazy Attention은 어텐션 싱크를 성공적으로 완화하고, 표준 어텐션 및 최신 아키텍처와 경쟁력 있는 성능을 달성했으며, 최대 59.58%의 어텐션 희소성을 달성했습니다.
The Transformer architecture, a cornerstone of modern Large Language Models (LLMs), has achieved extraordinary success in sequence modeling, primarily due to its attention mechanism. However, despite its power, the standard attention mechanism is plagued by well-documented issues: representational collapse and attention sink. Although prior work has proposed approaches for these issues, they are often studied in isolation, obscuring their deeper connection. In this paper, we present a unified perspective, arguing that both can be traced to a common root -- improper attention allocation. We identify two failure modes: 1) Attention Overload, where tokens receive comparable high weights, blurring semantic features that lead to representational collapse; 2) Attention Underload, where no token is semantically relevant, yet attention is still forced to distribute, resulting in spurious focus such as attention sink. Building on this insight, we introduce Lazy Attention, a novel mechanism designed for a more focused attention distribution. To mitigate overload, it employs positional discrimination across both heads and dimensions to sharpen token distinctions. To counteract underload, it incorporates Elastic-Softmax, a modified normalization function that relaxes the standard softmax constraint to suppress attention on irrelevant tokens. Experiments on the FineWeb-Edu corpus, evaluated across nine diverse benchmarks, demonstrate that Lazy Attention successfully mitigates attention sink and achieves competitive performance compared to both standard attention and modern architectures, while reaching up to 59.58% attention sparsity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.