트랜스포머의 토폴로지 문제
The Topological Trouble With Transformers
트랜스포머는 확장 가능한 문맥 정보를 활용하여 시퀀스 내의 구조를 인코딩합니다. 그러나 순수하게 피드포워드 아키텍처는 근본적으로 동적 상태 추적 능력을 제한합니다. 상태 추적은 변화하는 환경을 반영하는 잠재 변수를 반복적으로 업데이트하는 과정이며, 이는 피드포워드 네트워크가 유지하기 어려운 고유한 순차적 의존성을 포함합니다. 그 결과, 피드포워드 모델은 새로운 입력 단계가 있을 때마다 변화하는 상태 표현을 모델의 깊은 레이어로 더 깊숙이 밀어 넣게 되어, 얕은 레이어에서는 정보에 접근하기 어려워지고 결국 모델의 깊이를 소진하게 됩니다. 이러한 깊이 제한은 동적 깊이 모델이나 명시적 또는 암묵적 사고를 통해 상태 표현을 외부화함으로써 우회할 수 있지만, 이러한 해결책은 계산 및 메모리 효율성이 낮습니다. 본 논문에서는 시간적으로 확장된 인지 능력을 확보하기 위해서는 명시적인 사고 과정 추적에서 벗어나, 순환 구조를 통해 암묵적인 활성화 역학에 집중해야 한다고 주장합니다. 우리는 순환 및 연속적 사고 트랜스포머 아키텍처에 대한 분류 체계를 제시하며, 이들을 재귀 축(깊이 대 단계) 및 입력 토큰 대비 재귀 단계 비율에 따라 분류합니다. 마지막으로, 우리는 향상된 상태 공간 모델 및 거친 재귀와 같은 유망한 연구 방향을 제시하여, 현대적인 기반 모델에 상태 추적 기능을 보다 효과적으로 통합할 수 있는 방안을 모색합니다.
Transformers encode structure in sequences via an expanding contextual history. However, their purely feedforward architecture fundamentally limits dynamic state tracking. State tracking -- the iterative updating of latent variables reflecting an evolving environment -- involves inherently sequential dependencies that feedforward networks struggle to maintain. Consequently, feedforward models push evolving state representations deeper into their layer stack with each new input step, rendering information inaccessible in shallow layers and ultimately exhausting the model's depth. While this depth limit can be bypassed by dynamic depth models and by explicit or latent thinking that externalizes state representations, these solutions are computationally and memory inefficient. In this article, we argue that temporally extended cognition requires refocusing from explicit thought traces to implicit activation dynamics via recurrent architectures. We introduce a taxonomy of recurrent and continuous-thought transformer architectures, categorizing them by their recurrence axis (depth versus step) and their ratio of input tokens to recurrence steps. Finally, we outline promising research directions, including enhanced state-space models and coarse-grained recurrence, to better integrate state tracking into modern foundation models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.