2001.08361 Jan 23, 2020 cs.AI

신경망 언어 모델의 스케일링 법칙

Scaling Laws for Neural Language Models

Scott Gray
Scott Gray
Citations: 109,065
h-index: 13
Alec Radford
Alec Radford
Citations: 260,611
h-index: 33
Dario Amodei
Dario Amodei
Citations: 124,444
h-index: 30
Sam McCandlish
Sam McCandlish
OpenAI
Citations: 86,436
h-index: 30
T. Henighan
T. Henighan
Citations: 75,703
h-index: 20
Tom B. Brown
Tom B. Brown
Citations: 86,338
h-index: 25
Jeff Wu
Jeff Wu
Citations: 118,723
h-index: 11
Benjamin Chess
Benjamin Chess
Citations: 86,562
h-index: 8
R. Child
R. Child
Citations: 101,763
h-index: 14
J. Kaplan
J. Kaplan
Citations: 72,541
h-index: 45

우리는 크로스 엔트로피 손실을 기준으로 언어 모델 성능에 대한 경험적 스케일링 법칙을 연구한다. 손실은 모델 크기, 데이터셋 크기, 훈련에 사용된 연산량에 따라 멱법칙(power-law)으로 스케일링되며, 일부 경향은 7자리수(orders of magnitude) 이상의 범위에 걸쳐 나타난다. 네트워크의 너비나 깊이와 같은 다른 아키텍처 세부 사항들은 넓은 범위 내에서 미미한 영향만 미친다. 모델 및 데이터셋 크기에 따른 과적합의 의존성과 모델 크기에 따른 훈련 속도의 의존성은 간단한 방정식으로 설명된다. 이러한 관계들을 통해 고정된 연산 예산의 최적 할당을 결정할 수 있다. 더 큰 모델일수록 샘플 효율성이 훨씬 뛰어나기 때문에, 연산 효율이 최적화된 훈련을 위해서는 상대적으로 적은 양의 데이터로 매우 큰 모델을 훈련시키고 완전히 수렴하기 훨씬 전에 중단하는 것이 포함된다.

Original Abstract

We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Other architectural details such as network width or depth have minimal effects within a wide range. Simple equations govern the dependence of overfitting on model/dataset size and the dependence of training speed on model size. These relationships allow us to determine the optimal allocation of a fixed compute budget. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.

7260 Citations
541 Influential
22.5 Altmetric
8,454.5 Score

AI Analysis

Korean Summary

이 논문은 OpenAI 연구진이 트랜스포머(Transformer) 기반 언어 모델의 성능이 모델 크기(N), 데이터셋 크기(D), 그리고 학습에 사용된 연산량(C)에 따라 정밀한 멱법칙(Power-law)을 따르며 확장된다는 것을 실증적으로 규명한 연구입니다. 연구 결과, 모델의 깊이나 너비 같은 세부 아키텍처보다 스케일(규모)이 성능에 훨씬 더 결정적인 영향을 미친다는 것을 발견했습니다. 특히, 고정된 연산 예산(Compute Budget) 내에서 최적의 성능을 달성하기 위해서는 기존의 통념처럼 작은 모델을 완전히 수렴할 때까지 학습시키는 것보다, 매우 큰 모델을 사용하여 수렴하기 훨씬 전에 학습을 중단(Early Stopping)하는 것이 훨씬 효율적임을 입증했습니다.

Key Innovations

  • 언어 모델 성능(Cross-entropy loss)이 스케일(N, D, C)에 따라 멱법칙을 따름을 규명
  • 모델 아키텍처(깊이 vs 너비)보다 파라미터 수가 성능에 지배적인 영향
  • 대규모 모델이 소규모 모델보다 샘플 효율성(Sample Efficiency)이 훨씬 뛰어남을 입증
  • 고정된 연산량에서 모델 크기를 키우고 학습 스텝을 줄이는 것이 최적이라는 'Compute-Efficient' 학습 전략 제시
  • 과적합(Overfitting)이 모델 크기와 데이터셋 크기의 비율(N^0.74/D)에 따라 예측 가능하게 발생함을 발견

Learning & Inference Impact

학습 측면에서는 '모델 수렴'에 집착하던 기존 관행을 깨고, 연산 효율성을 극대화하기 위해 모델 사이즈를 대폭 키우고 학습 데이터 반복(Epoch)을 줄이는 방향으로 패러다임을 전환시켰습니다. 이는 이후 GPT-3와 같은 초거대 언어 모델(LLM) 개발의 이론적 기반이 되었습니다. 추론 측면에서는 학습 효율성을 위해 선택한 '거대 모델' 전략이 추론 비용(메모리 및 연산량) 증가를 야기하지만, 더 적은 데이터로도 높은 성능에 도달할 수 있는 샘플 효율성을 통해 이를 상쇄할 잠재력을 보여주었습니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!