DuQuant++: 미세 스케일링 FP4 양자화에서 세밀한 회전 기법이 성능을 향상시킨다
DuQuant++: Fine-grained Rotation Enhances Microscaling FP4 Quantization
MXFP4 미세 스케일링 형식은 텐서를 32개 요소로 구성된 블록으로 분할하며, 각 블록은 E8M0 스케일링 인수를 공유합니다. 이 형식은 NVIDIA Blackwell 텐서 코어의 하드웨어 지원을 통해 효율적인 LLM 추론을 위한 유망한 기반이 될 수 있습니다. 그러나 활성화 값의 이상치는 이 형식에서 특별한 문제를 야기합니다. 단일 이상치가 공유 블록의 스케일을 증가시켜 나머지 요소의 유효 동적 범위를 압축하고 상당한 양자화 오류를 발생시킵니다. 기존의 회전 기반 해결책(예: 랜덤 하담, 학습 가능한 회전)은 데이터에 독립적이기 때문에 이상치가 집중된 채널을 특정적으로 타겟팅할 수 없습니다. 본 논문에서는 DuQuant++를 제안합니다. DuQuant++는 DuQuant의 이상치 인지 세밀한 회전 기법을 MXFP4 형식에 적용하여 회전 블록 크기를 미세 스케일링 그룹 크기(B=32)와 일치시킵니다. 각 MXFP4 그룹이 독립적인 스케일링 인수를 갖기 때문에, 원래 DuQuant에서 필요한 이중 회전 및 지그재그 순열 문제는 무의미해집니다. 따라서 DuQuant++는 전체 파이프라인을 단일의 이상치 인지 회전으로 대체하여 온라인 회전 비용을 절반으로 줄이는 동시에 가중치 분포를 더욱 균일하게 만듭니다. MXFP4 W4A4 양자화 환경에서 LLaMA-3 패밀리에 대한 광범위한 실험 결과, DuQuant++는 일관되게 최첨단 성능을 달성하는 것으로 나타났습니다. 저희 코드의 GitHub 주소는 https://github.com/Hsu1023/DuQuant-v2 입니다.
The MXFP4 microscaling format, which partitions tensors into blocks of 32 elements sharing an E8M0 scaling factor, has emerged as a promising substrate for efficient LLM inference, backed by native hardware support on NVIDIA Blackwell Tensor Cores. However, activation outliers pose a unique challenge under this format: a single outlier inflates the shared block scale, compressing the effective dynamic range of the remaining elements and causing significant quantization error. Existing rotation-based remedies, including randomized Hadamard and learnable rotations, are data-agnostic and therefore unable to specifically target the channels where outliers concentrate. We propose DuQuant++, which adapts the outlier-aware fine-grained rotation of DuQuant to the MXFP4 format by aligning the rotation block size with the microscaling group size (B{=}32). Because each MXFP4 group possesses an independent scaling factor, the cross-block variance issue that necessitates dual rotations and a zigzag permutation in the original DuQuant becomes irrelevant, enabling DuQuant++ to replace the entire pipeline with a single outlier-aware rotation, which halves the online rotation cost while simultaneously smoothing the weight distribution. Extensive experiments on the LLaMA-3 family under MXFP4 W4A4 quantization show that DuQuant++ consistently achieves state-of-the-art performance. Our code is available at https://github.com/Hsu1023/DuQuant-v2.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.