2601.22101v1 Jan 29, 2026 cs.CL

ECO: 전체 정밀도 마스터 가중치 없이 양자화된 학습

ECO: Quantized Training without Full-Precision Master Weights

V. Mirrokni
V. Mirrokni
Citations: 20,546
h-index: 62
Dan Alistarh
Dan Alistarh
Citations: 13,362
h-index: 42
Mahdi Nikdan
Mahdi Nikdan
Citations: 107
h-index: 6
A. Zandieh
A. Zandieh
Citations: 2,748
h-index: 15

양자화는 대규모 언어 모델(LLM) 학습의 계산 및 메모리 효율성을 크게 향상시켰습니다. 그러나 기존 방식은 여전히 높은 정밀도로 업데이트를 누적합니다. 구체적으로, 그래디언트 업데이트는 '마스터 가중치'라고 알려진 고정밀 가중치 버퍼에 적용되어야 합니다. 이 버퍼는 상당한 메모리 오버헤드를 발생시키며, 특히 모델 파라미터와 옵티마이저 상태가 메모리 사용량을 지배하는 희소 혼합 전문가(SMoE) 모델에서 더욱 두드러집니다. 이러한 문제를 해결하기 위해, 마스터 가중치를 제거하고 양자화된 파라미터에 직접 업데이트를 적용하는 Error-Compensating Optimizer (ECO)를 제안합니다. ECO는 각 단계마다 가중치를 양자화하고, 발생하는 양자화 오류를 옵티마이저 모멘텀에 신중하게 주입하여 추가 메모리 없이 오류 피드백 루프를 형성합니다. 표준 가정과 감쇠 학습률 하에서 ECO는 최적값의 특정 반경 이내로 수렴하며, 반면 마스터 가중치를 무분별하게 제거하면 학습률에 반비례하는 오류가 발생할 수 있습니다. 우리는 30-800M 파라미터의 작은 Transformer 모델, Gemma-3 1B 모델, 2.1B 파라미터의 희소 MoE 모델 (FP8 양자화 사용)의 사전 학습 및 DeepSeek-MoE-16B 모델의 INT4 정밀도 미세 조정을 실험했습니다. 실험 결과, ECO는 마스터 가중치를 사용하는 기준 모델과 거의 동일한 성능을 보이며, 메모리 사용량과 검증 손실 간의 트레이드오프 관계를 크게 개선했습니다.

Original Abstract

Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as $\textit{master weights}$. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.

0 Citations
0 Influential
30 Altmetric
150.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!