중첩(Superposition)이 파워 법칙 훈련 동역학을 통합하는 방식
Superposition unifies power-law training dynamics
본 연구에서는 교사-학생 프레임워크를 사용하여 특징 중첩이 파워 법칙 훈련 동역학의 발현에 미치는 영향을 조사합니다. 먼저 중첩이 없는 훈련에 대한 분석적 이론을 도출하여, 파워 법칙 훈련 지수가 입력 데이터 통계 및 채널 중요도에 모두 의존한다는 것을 확인했습니다. 놀랍게도, 중첩 병목 현상은 데이터 및 채널 통계에 독립적으로 약 1의 보편적인 파워 법칙 지수로의 전환을 유도한다는 것을 발견했습니다. 중첩을 사용한 이러한 시간 경과에 따른 훈련은 중첩이 없는 순차적 학습에 비해 최대 10배 빠른 속도를 보입니다. 중첩이 데이터에 독립적인 파워 법칙 지수를 갖는 빠른 훈련을 유도한다는 우리의 발견은 중첩을 사용하는 다양한 신경망, 특히 대규모 언어 모델을 포함한 광범위한 시스템에 중요한 의미를 가질 수 있습니다.
We investigate the role of feature superposition in the emergence of power-law training dynamics using a teacher-student framework. We first derive an analytic theory for training without superposition, establishing that the power-law training exponent depends on both the input data statistics and channel importance. Remarkably, we discover that a superposition bottleneck induces a transition to a universal power-law exponent of $\sim 1$, independent of data and channel statistics. This one over time training with superposition represents an up to tenfold acceleration compared to the purely sequential learning that takes place in the absence of superposition. Our finding that superposition leads to rapid training with a data-independent power law exponent may have important implications for a wide range of neural networks that employ superposition, including production-scale large language models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.