KV 바인딩을 적용한 테스트 타임 트레이닝은 사실 선형 어텐션이다
Test-Time Training with KV Binding Is Secretly Linear Attention
시퀀스 모델링 계층으로 KV 바인딩을 사용하는 테스트 타임 트레이닝(TTT)은 일반적으로 테스트 시점에 키-값 매핑을 암기하는 온라인 메타 러닝의 한 형태로 해석된다. 그러나 우리의 분석은 이러한 암기 기반의 해석과 모순되는 여러 현상을 밝혀낸다. 이러한 발견을 바탕으로 우리는 TTT의 수식화를 재검토하고, 광범위한 TTT 아키텍처 클래스가 학습된 선형 어텐션 연산자의 한 형태로 표현될 수 있음을 보여준다. 이전에 이해하기 어려웠던 모델의 동작을 설명하는 것을 넘어, 이러한 관점은 여러 실용적인 이점을 제공한다. 즉, 원칙에 입각한 아키텍처 단순화를 가능하게 하고, 성능을 유지하면서도 효율성을 향상시키는 완전 병렬화 수식을 허용하며, 다양한 TTT 변형들을 표준 선형 어텐션 형태로 체계적으로 환원할 수 있게 해준다. 전반적으로 우리의 연구 결과는 TTT를 테스트 타임 암기가 아닌, 향상된 표현 능력을 갖춘 학습된 선형 어텐션으로 재정의한다.
Test-time training (TTT) with KV binding as sequence modeling layer is commonly interpreted as a form of online meta-learning that memorizes a key-value mapping at test time. However, our analysis reveals multiple phenomena that contradict this memorization-based interpretation. Motivated by these findings, we revisit the formulation of TTT and show that a broad class of TTT architectures can be expressed as a form of learned linear attention operator. Beyond explaining previously puzzling model behaviors, this perspective yields multiple practical benefits: it enables principled architectural simplifications, admits fully parallel formulations that preserve performance while improving efficiency, and provides a systematic reduction of diverse TTT variants to a standard linear attention form. Overall, our results reframe TTT not as test-time memorization, but as learned linear attention with enhanced representational capacity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.