처방적 스케일링 분석이 언어 모델 성능 발전 과정을 드러내다
Prescriptive Scaling Reveals the Evolution of Language Model Capabilities
기초 모델을 활용하기 위해, 실무자들은 점점 더 '처방적 스케일링 법칙'이 필요합니다. 즉, 주어진 사전 훈련 컴퓨팅 예산 하에서, 현재의 사후 훈련 방식을 통해 어떤 수준의 정확도를 달성할 수 있으며, 해당 관계가 기술 발전과 함께 얼마나 안정적으로 유지되는지를 파악해야 합니다. 본 연구에서는 5,000개의 관측 데이터와 2,000개의 새로 샘플링된 데이터를 활용한 대규모 관측 평가를 통해, 모델 성능에 따른 능력 경계를 추정했습니다. 특히, 사전 훈련 FLOPs의 로그 값에 따른 벤치마크 점수의 조건부 분위수를 추정하기 위해, 단조적인 포화 시그모이드 파라미터화를 사용한 부드러운 분위수 회귀 분석을 수행했습니다. 또한, 이전 모델 세대에 대한 피팅과 이후 버전에서의 평가를 통해 시간적 안정성을 검증했습니다. 다양한 작업에 걸쳐 추정된 경계는 대체로 안정적이지만, 수학적 추론 능력은 시간이 지남에 따라 꾸준히 발전하는 경향을 보였습니다. 우리는 이러한 접근 방식을 확장하여 작업에 따른 포화 현상을 분석하고, 수학적 추론 작업에서 발생하는 데이터 오염 관련 변화를 조사했습니다. 마지막으로, 전체 데이터 프론티어에 가까운 결과를 대략 20%의 평가 예산으로 복원할 수 있는 효율적인 알고리즘을 소개합니다. 본 연구는 최신 모델 성능 평가 데이터셋인 'Proteus 2k'를 공개하고, 컴퓨팅 예산을 신뢰할 수 있는 성능 기대치로 변환하고, 시간이 지남에 따라 능력 경계가 어떻게 변화하는지를 모니터링하는 실용적인 방법론을 제시합니다.
For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.