소프트맥스 선형 어텐션: 글로벌 경쟁력 회복
Softmax Linear Attention: Reclaiming Global Competition
선형 어텐션은 기존 트랜스포머의 2차 복잡도를 선형 시간으로 줄이지만, 소프트맥스 정규화 제거로 인해 표현력이 부족한 경우가 많습니다. 이러한 제거는 모델이 긴 문맥 속에서 관련 정보에 집중할 수 있도록 하는 중요한 메커니즘인 extit{글로벌 경쟁}을 없애기 때문입니다. 본 연구에서는 효율성을 저해하지 않고 이러한 경쟁적인 선택을 복원하는 프레임워크인 extbf{소프트맥스 선형 어텐션 (SLA)}을 제안합니다. SLA는 소프트맥스 연산을 토큰 레벨에서 헤드 레벨로 확장하여, 어텐션 헤드를 거친 의미론적 슬롯으로 활용하고, 동적으로 가장 관련성이 높은 부분 공간을 선택하는 경쟁적 게이팅 메커니즘을 적용합니다. 이를 통해 정확한 정보 검색과 강력한 긴 문맥 이해를 위한 ``승자 독식(winner-take-all)`` 역학을 재도입합니다. 기존 방법들이 로컬 커널 함수를 개선하는 데 집중하는 것과는 달리, SLA는 더 높은 수준의 멀티-헤드 집계 구조를 활용하여 보다 포괄적인 관점을 채택합니다. 광범위한 실험 결과, SLA는 언어 모델링 및 긴 문맥 벤치마크에서 최첨단 선형 모델(RetNet, GLA, GDN)을 꾸준히 능가하며, 특히 노이즈에 대한 강건성이 중요한 어려운 정보 검색 시나리오에서 특히 뛰어난 성능을 보입니다. 이는 SLA가 선형 복잡도를 유지하면서도 정확한 집중력을 회복하는 능력을 입증합니다.
While linear attention reduces the quadratic complexity of standard Transformers to linear time, it often lags behind in expressivity due to the removal of softmax normalization. This omission eliminates \emph{global competition}, a critical mechanism that enables models to sharply focus on relevant information amidst long-context noise. In this work, we propose \textbf{Softmax Linear Attention (SLA)}, a framework designed to restore this competitive selection without sacrificing efficiency. By lifting the softmax operation from the token level to the head level, SLA leverages attention heads as coarse semantic slots, applying a competitive gating mechanism to dynamically select the most relevant subspaces. This reintroduces the ``winner-take-all'' dynamics essential for precise retrieval and robust long-context understanding. Distinct from prior methods that focus on refining local kernel functions, SLA adopts a broader perspective by exploiting the higher-level multi-head aggregation structure. Extensive experiments demonstrate that SLA consistently enhances state-of-the-art linear baselines (RetNet, GLA, GDN) across language modeling and long-context benchmarks, particularly in challenging retrieval scenarios where it significantly boosts robustness against noise, validating its capability to restore precise focus while maintaining linear complexity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.