FP4 양자화 LLM 훈련에서 평균 편향이 가져다주는 저주와 축복
The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training
자연어 데이터로 훈련된 대규모 언어 모델은 뚜렷한 방향성(anisotropy)을 보입니다. 즉, 소수의 방향에 불균형적으로 많은 에너지가 집중되는 반면, 나머지 차원은 넓은 의미론적 범위를 형성합니다. 저비트 훈련 환경에서는 이러한 구조가 수치적으로 불안정해집니다. 블록 단위 양자화 스케일은 극단적인 요소별 값에 의해 결정되는데, 지배적인 방향은 동적 범위를 확장시켜 광범위한 의미론적 변화를 좁은 수치 범위 내에 압축시킵니다. 본 연구에서는 이러한 불안정성이 주로 일관된 랭크-1 평균 편향에 의해 발생하며, 이는 LLM 표현에서 나타나는 스펙트럴 방향성의 주된 구성 요소임을 보여줍니다. 이러한 평균 구성 요소는 레이어와 훈련 단계에 걸쳐 체계적으로 나타나며, 극단적인 활성화 값의 대부분을 차지하여 저정밀 환경에서 동적 범위 확장의 주요 원인이 됩니다. 중요한 점은, 지배적인 불안정성이 랭크-1이기 때문에, 간단한 소스 레벨 평균 제거 연산을 통해 이를 제거할 수 있다는 것입니다. 이러한 평균 중심의 조정은 SVD 기반 스펙트럴 방법의 안정성 이점을 대부분 회복하면서도, 단순한 감소 연산과 표준 양자화 커널만 사용합니다. FP4 (W4A4G4) 훈련에 대한 실험 결과는 평균 제거가 손실 격차를 BF16 수준으로 크게 줄이고, 후속 작업 성능을 복원하며, 안정적인 저비트 LLM 훈련을 위한 하드웨어 효율적인 경로를 제공함을 보여줍니다.
Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.