2602.07488v2 Feb 07, 2026 cs.LG

자연어 통계로부터 유도된 신경망 확장 법칙

Deriving Neural Scaling Laws from the statistics of natural language

Francesco Cagnetta
Francesco Cagnetta
Citations: 229
h-index: 7
Allan Ravent'os
Allan Ravent'os
Citations: 203
h-index: 3
Surya Ganguli
Surya Ganguli
Citations: 92
h-index: 3
M. Wyart
M. Wyart
Citations: 8,990
h-index: 53

실험적으로 관찰된 신경망 확장 법칙은 대규모 머신러닝 분야의 발전에 중요한 역할을 해왔지만, 기존의 어떤 이론도 현대의 자연어 데이터셋으로 학습된 LLM(Large Language Model)의 확장 법칙 지수를 정량적으로 예측하지 못했습니다. 본 연구에서는 데이터 부족 환경에서의 확장 법칙에 대한 최초의 이론적 모델을 제시합니다. 우리는 언어의 두 가지 핵심 통계적 특징이 신경망 확장 지수를 예측하는 데 충분함을 보여줍니다. (i) 토큰 쌍 사이의 상관관계가 토큰 쌍 사이의 시간 간격에 따라 어떻게 감소하는지, 그리고 (ii) 다음 토큰의 조건부 엔트로피가 컨텍스트 길이와 함께 어떻게 감소하는지입니다. 또한, 우리는 이러한 통계적 특징을 기반으로 하는 간단한 공식을 유도하여, 자유 매개변수나 합성 데이터 모델 없이 근본적인 원리로부터 데이터 부족 환경에서의 신경망 확장 지수를 예측합니다. 제안하는 이론은 GPT-2 및 LLaMA 스타일 모델을 TinyStories 및 WikiText라는 두 가지 질적으로 다른 벤치마크에서 처음부터 학습했을 때 얻어진 실험적으로 측정된 신경망 확장 법칙과 놀랍도록 일치하는 결과를 보여줍니다.

Original Abstract

Despite the fact that experimental neural scaling laws have substantially guided empirical progress in large-scale machine learning, no existing theory can quantitatively predict the exponents of these important laws for any modern LLM trained on any natural language dataset. We provide the first such theory in the case of data-limited scaling laws. We isolate two key statistical properties of language that alone can predict neural scaling exponents: (i) the decay of pairwise token correlations with time separation between token pairs, and (ii) the decay of the next-token conditional entropy with the length of the conditioning context. We further derive a simple formula in terms of these statistics that predicts data-limited neural scaling exponents from first principles without any free parameters or synthetic data models. Our theory exhibits a remarkable match with experimentally measured neural scaling laws obtained from training GPT-2 and LLaMA style models from scratch on two qualitatively different benchmarks, TinyStories and WikiText.

4 Citations
0 Influential
26.5 Altmetric
136.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!