2602.12635v2 Feb 13, 2026 cs.CL

Ascend NPU에서 HiFloat 형식을 활용한 저비트 추론: 종합적인 성능 평가

Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Hui-Ling Zhen
Hui-Ling Zhen
Citations: 304
h-index: 6
Xing Li
Xing Li
Citations: 99
h-index: 4
Pengxiang Zhao
Pengxiang Zhao
Citations: 74
h-index: 4
Han Bao
Han Bao
Citations: 62
h-index: 3
Weizhe Lin
Weizhe Lin
Citations: 17
h-index: 2
Zhiyuan Yang
Zhiyuan Yang
Citations: 19
h-index: 2
Ziwei Yu
Ziwei Yu
Citations: 1
h-index: 1
Xin Wang
Xin Wang
Citations: 1
h-index: 1
Ming-Hu Yuan
Ming-Hu Yuan
Citations: 8
h-index: 2
Xianzhi Yu
Xianzhi Yu
Citations: 46
h-index: 4
Zhen Dong
Zhen Dong
Citations: 20
h-index: 3
Yuanyong Luo
Yuanyong Luo
Citations: 1
h-index: 1
Manyi Zhang
Manyi Zhang
Citations: 12
h-index: 2

LLM(Large Language Model)의 규모가 커짐에 따라, MXFP 및 NVFP4와 같은 저비트 부동 소수점 형식이 정밀도와 효율성 측면에서 새로운 가능성을 제시합니다. 본 연구에서는 Ascend NPU에 최적화된 HiFloat(HiF8 및 HiF4) 형식 패밀리에 대한 종합적인 성능 평가를 수행했습니다. 가중치-활성화 및 KV-캐시 작업에 대한 엄격한 비교 분석을 통해 다음과 같은 세 가지 주요 결과를 도출했습니다. (1) INT8은 좁은 범위의 데이터에 적합하며, 부동 소수점 형식은 높은 분산의 데이터에 더 효과적입니다. (2) 4비트 환경에서, HiF4의 계층적 스케일링은 정수 형식에서 발생하는 정확도 저하를 방지합니다. (3) HiFloat은 최첨단 사후 양자화 프레임워크와 완벽하게 호환됩니다. 전반적으로, HiFloat은 NPU에서 고효율 LLM 추론을 위한 솔루션을 제공합니다.

Original Abstract

As LLMs scale, low-bit floating-point formats like MXFP and NVFP4 offer new opportunities for precision and efficiency. In this work, we evaluate HiFloat (HiF8 and HiF4), a family of formats tailored for Ascend NPUs. Through rigorous comparison across weight-activation and KV-cache tasks, we provide three key insights: (1) INT8 suits narrow-range data, while floating-point formats excel with high-variance data; (2) in 4-bit regimes, HiF4's hierarchical scaling prevents the accuracy collapse seen in integer formats; and (3) HiFloat is fully compatible with state-of-the-art post-training quantization frameworks. Overall, HiFloat provides a solution for high-efficiency LLM inference on NPUs.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!