학습 과정에서 나타나는 분포의 특성을 고려한 1/3 배 속도 스케일링 연구
Universal One-third Time Scaling in Learning Peaked Distributions
대규모 언어 모델(LLM)의 학습은 막대한 계산 비용을 요구하는데, 이는 손실 함수의 수렴 속도가 느린 거듭제곱 법칙을 따르기 때문이며, 그 원인은 여전히 논쟁의 여지가 있습니다. 본 연구에서는 단순 모델에 대한 체계적인 분석과 LLM에 대한 실증적 평가를 통해, 이러한 현상이 소프트맥스와 교차 엔트로피 함수의 사용으로 인해 근본적으로 발생할 수 있음을 보여줍니다. 특히, 다음 토큰 분포와 같이 뾰족한 확률 분포를 학습할 때, 이러한 함수들은 손실과 그래디언트를 거듭제곱 법칙에 따라 감소시켜 근본적인 최적화 병목 현상을 야기합니다. 결과적으로, 손실 함수는 보편적인 지수 $1/3$을 갖는 거듭제곱 법칙에 따라 시간과 함께 스케일링됩니다. 본 연구 결과는 관찰된 신경망 스케일링에 대한 메커니즘적 설명을 제공하며, LLM 학습 효율성을 향상시킬 수 있는 새로운 방향을 제시합니다.
Training large language models (LLMs) is computationally expensive, partly because the loss exhibits slow power-law convergence whose origin remains debatable. Through systematic analysis of toy models and empirical evaluation of LLMs, we show that this behavior can arise intrinsically from the use of softmax and cross-entropy. When learning peaked probability distributions, e.g., next-token distributions, these components yield power-law vanishing losses and gradients, creating a fundamental optimization bottleneck. This ultimately leads to power-law time scaling of the loss with a universal exponent of $1/3$. Our results provide a mechanistic explanation for observed neural scaling and suggest new directions for improving LLM training efficiency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.