MXFP4를 활용한 양자화의 잠재력 탐구: 양자화 오차 감소 전략
Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction
대규모 언어 모델(LLM)의 발전은 효율적인 대규모 추론을 가능하게 하는 저정밀 형식에 대한 요구를 증가시켰습니다. 오픈 컴퓨트 프로젝트(OCP)의 마이크로 스케일링(MX) 표준은 뛰어난 하드웨어 효율성을 제공하지만, 4비트 변형(MXFP4)은 NVIDIA의 NVFP4에 비해 정확도가 낮아 활용도가 제한적입니다. 본 연구에서는 하드웨어 변경 없이 MXFP4의 양자화 정확도를 향상시키는 두 가지 소프트웨어 기반 기술, 즉 오버플로우 인식 스케일링(OAS) 및 매크로 블록 스케일링(MBS)을 제안합니다. OAS는 2의 거듭제곱 블록 스케일링 하에 효과적인 동적 범위를 증가시켜 전체 오류를 줄이고, MBS는 이상치를 더 잘 보존하기 위해 더 세분화된 방식으로 고정밀 스케일링을 할당합니다. 여러 LLM과 표준 다운스트림 벤치마크에서 OAS와 MBS는 MXFP4와 NVFP4 간의 최종 정확도 격차를 평균 10%에서 1% 미만으로 줄이며, 동시에 GEMM 오버헤드는 평균 6.2% 정도 증가합니다. 이러한 결과는 MXFP4를 NVFP4의 실용적인 대안으로 재확립하며, NVFP4에 가까운 정확도를 제공하면서 MX의 하드웨어 효율성 이점(예: 텐서 코어에서 상대적으로 12%의 면적 절감)을 유지할 수 있습니다.
Large Language Models (LLMs) have intensified the need for low-precision formats that enable efficient, large-scale inference. The Open Compute Project (OCP) Microscaling (MX) standard is attractive due to its favorable hardware efficiency, but its 4-bit variant (MXFP4) lags behind NVIDIA's NVFP4 in accuracy, limiting adoption. We introduce two software-only techniques, Overflow-Aware Scaling (OAS) and Macro Block Scaling (MBS), that improve MXFP4 quantization fidelity without requiring hardware changes. OAS reduces overall errors by increasing effective dynamic range under power-of-two block scaling, while MBS allocates higher-precision scaling at a coarser granularity to better preserve outliers. Across multiple LLMs and standard downstream benchmarks, OAS and MBS reduce the end-to-end accuracy gap between MXFP4 and NVFP4 from about 10% to below 1% on average, while incurring modest GEMM overhead (6.2% on average). These results re-establish MXFP4 as a practical alternative to NVFP4, enabling near-NVFP4 accuracy while retaining MX's hardware-efficiency advantages (e.g., 12% relative area savings in tensor cores).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.