BATQuant: 이상치에 강건한 MXFP4 양자화: 학습 가능한 블록 단위 최적화
BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization
마이크로 스케일링 부동소수점(MXFP) 형식은 현대 가속기 아키텍처에서 멀티모달 대규모 언어 모델(MLLM) 및 대규모 언어 모델(LLM)을 배포하기 위한 유망한 표준으로 부상했습니다. 그러나 기존의 학습 후 양자화(PTQ) 방법, 특히 정수 형식에 설계된 회전 기반 기술은 MXFP4에 적용될 때 심각한 성능 저하를 겪습니다. 최근 연구에 따르면 이러한 실패의 원인은 근본적인 형식 불일치에 있습니다. 전역 직교 회전은 의도치 않게 양자화 블록 간에 이상치 에너지를 전달하여 새로운 이상치를 유발하고, 이는 로컬 블록 단위 스케일링을 방해하며, 종종 제한된 양자화 범위를 활용하지 못하는 이중 모드 활성화 분포를 생성합니다. 이러한 문제를 해결하기 위해, 우리는 MXFP의 세분성(granularity)에 맞춰 변환을 제한하여 블록 간 이상치 전파를 방지하고, 분포 형상을 최적화하기 위해 직교성 제약 조건을 완화하는 BATQuant(Block-wise Affine Transformation)를 제안합니다. 매개변수 효율성을 보장하기 위해, 저장 및 런타임 오버헤드를 효과적으로 줄이는 Global and Private Kronecker (GPK) 분해를 도입하고, 잔여 이상치를 억제하기 위해 블록 단위 학습 가능한 클리핑(Block-wise Learnable Clipping)을 통합했습니다. MLLM 및 LLM에 대한 광범위한 실험 결과, BATQuant는 공격적인 W4A4KV16 구성에서 최첨단 결과를 달성하며, 멀티모달 벤치마크에서 최대 96.43%의 전체 정밀도 성능을 회복하고, 다양한 작업에서 기존 방법보다 훨씬 뛰어난 성능을 보였습니다.
Microscaling floating-point (MXFP) formats have emerged as a promising standard for deploying Multi-modal Large Language Models (MLLMs) and Large Language Models (LLMs) on modern accelerator architectures. However, existing Post-Training Quantization (PTQ) methods, particularly rotation-based techniques designed for integer formats, suffer from severe performance collapse when applied to MXFP4. Recent studies attribute this failure to a fundamental format mismatch: global orthogonal rotations inadvertently transfer outlier energy across quantization blocks, inducing new outliers that disrupt local block-wise scaling, while often creating bimodal activation distributions that underutilize the limited quantization range. To address these issues, we propose BATQuant (Block-wise Affine Transformation), which restricts transformations to align with MXFP granularity to prevent cross-block outlier propagation, while relaxing orthogonality constraints to optimize distribution shaping. To ensure parameter efficiency, we introduce Global and Private Kronecker (GPK) decomposition to effectively reduces storage and runtime overhead and incorporate Block-wise Learnable Clipping to suppress residual outliers. Extensive experiments on both MLLMs and LLMs demonstrate that BATQuant establishes new state-of-the-art results under aggressive W4A4KV16 configurations, recovering up to 96.43% of full-precision performance on multimodal benchmarks and clearly outperforming existing methods across diverse tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.