2601.05049v1 Jan 08, 2026 cs.AI

대규모 사전 학습을 위한 학습률 설정 방법은 무엇인가?

How to Set the Learning Rate for Large-Scale Pre-training?

Yunhua Zhou
Yunhua Zhou
Citations: 977
h-index: 15
Shuhao Xing
Shuhao Xing
Citations: 39
h-index: 3
Junhao Huang
Junhao Huang
Citations: 2
h-index: 1
Xipeng Qiu
Xipeng Qiu
Citations: 2
h-index: 1
Qipeng Guo
Qipeng Guo
Citations: 480
h-index: 12

대규모 사전 학습에서 학습률(LR)의 최적 설정은 기본적이면서도 매우 어려운 과제입니다. 훈련 비용과 모델 성능 사이의 엄격한 상충 관계(trade-off)를 고려할 때, 핵심적인 질문은 저비용 실험으로부터 최적의 학습률을 정확하게 추정할 수 있는지 여부입니다. 본 논문에서는 이 연구를 '피팅(Fitting)'과 '전이(Transfer)'라는 두 가지 연구 패러다임으로 공식화합니다. 피팅 패러다임에서는 탐색 인자에 대한 스케일링 법칙(Scaling Law)을 혁신적으로 도입하여, 예측 모델링을 통해 탐색 복잡도를 O(n^3)에서 O(n*C_D*C_η)로 효과적으로 감소시켰습니다. 전이 패러다임에서는 μTransfer의 원리를 MoE(Mixture of Experts) 아키텍처로 확장하여, 모델 깊이, 가중치 감쇠, 토큰 범위까지 적용 가능하도록 넓혔습니다. 우리는 기존 하이퍼파라미터 연구의 한계를 규모 면에서 확장하여 이 두 패러다임을 포괄적으로 비교합니다. 우리의 실증적 결과는 대규모 사전 학습 시나리오에서 널리 사용되는 μTransfer의 확장성에 의문을 제기합니다. 더 나아가, 대규모 환경에서 모듈별 파라미터 튜닝 성능이 저조한 근본 원인을 규명하기 위해 훈련 안정성과 특징 학습(feature learning)의 두 가지 관점에서 정밀한 분석을 제공합니다. 본 연구는 산업 수준의 사전 학습 최적화를 위한 체계적인 실무 가이드라인과 새로운 이론적 관점을 제시합니다.

Original Abstract

Optimal configuration of the learning rate (LR) is a fundamental yet formidable challenge in large-scale pre-training. Given the stringent trade-off between training costs and model performance, the pivotal question is whether the optimal LR can be accurately extrapolated from low-cost experiments. In this paper, we formalize this investigation into two distinct research paradigms: Fitting and Transfer. Within the Fitting Paradigm, we innovatively introduce a Scaling Law for search factor, effectively reducing the search complexity from O(n^3) to O(n*C_D*C_η) via predictive modeling. Within the Transfer Paradigm, we extend the principles of $μ$Transfer to the Mixture of Experts (MoE) architecture, broadening its applicability to encompass model depth, weight decay, and token horizons. By pushing the boundaries of existing hyperparameter research in terms of scale, we conduct a comprehensive comparison between these two paradigms. Our empirical results challenge the scalability of the widely adopted $μ$ Transfer in large-scale pre-training scenarios. Furthermore, we provide a rigorous analysis through the dual lenses of training stability and feature learning to elucidate the underlying reasons why module-wise parameter tuning underperforms in large-scale settings. This work offers systematic practical guidelines and a fresh theoretical perspective for optimizing industrial-level pre-training.

2 Citations
0 Influential
7.5 Altmetric
39.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!