ScaleBITS: 하드웨어 호환성을 고려한 혼합 정밀도 대규모 언어 모델의 확장 가능한 비트폭 탐색
ScaleBITS: Scalable Bitwidth Search for Hardware-Aligned Mixed-Precision LLMs
사후 훈련 가중치 양자화는 대규모 언어 모델(LLM)의 메모리 및 추론 비용을 줄이는 데 매우 중요하지만, 가중치의 불균일한 민감도와 체계적인 정밀도 할당 부족으로 인해 평균 정밀도를 4비트 미만으로 낮추는 것은 여전히 어려운 과제입니다. 기존 솔루션은 높은 런타임 오버헤드를 가진 불규칙한 세분화된 혼합 정밀도를 사용하거나, 휴리스틱 또는 매우 제한적인 정밀도 할당 전략에 의존합니다. 본 연구에서는 ScaleBITS라는 혼합 정밀도 양자화 프레임워크를 제안합니다. ScaleBITS는 메모리 제약 조건 내에서 자동화된 세분화된 비트폭 할당을 가능하게 하여 하드웨어 효율성을 유지합니다. 새로운 민감도 분석을 기반으로, 양방향 채널 재정렬을 통해 구현된 하드웨어 호환성을 고려한 블록 단위 가중치 파티셔닝 방식을 도입했습니다. 전역 비트폭 할당을 제약 조건 최적화 문제로 공식화하고, 탐욕 알고리즘에 대한 확장 가능한 근사 알고리즘을 개발하여 엔드투엔드 체계적인 할당을 가능하게 합니다. 실험 결과, ScaleBITS는 균일 정밀도 양자화 대비 성능이 크게 향상되었습니다(최대 +36%) 또한, 최첨단 민감도 기반 모델 대비 성능이 우수합니다(최대 +13%) 특히, 매우 낮은 비트 환경에서 이러한 성능 향상을 달성했으며, 런타임 오버헤드를 추가하지 않습니다.
Post-training weight quantization is crucial for reducing the memory and inference cost of large language models (LLMs), yet pushing the average precision below 4 bits remains challenging due to highly non-uniform weight sensitivity and the lack of principled precision allocation. Existing solutions use irregular fine-grained mixed-precision with high runtime overhead or rely on heuristics or highly constrained precision allocation strategies. In this work, we propose ScaleBITS, a mixed-precision quantization framework that enables automated, fine-grained bitwidth allocation under a memory budget while preserving hardware efficiency. Guided by a new sensitivity analysis, we introduce a hardware-aligned, block-wise weight partitioning scheme, powered by bi-directional channel reordering. We formulate global bitwidth allocation as a constrained optimization problem and develop a scalable approximation to the greedy algorithm, enabling end-to-end principled allocation. Experiments show that ScaleBITS significantly improves over uniform-precision quantization (up to +36%) and outperforms state-of-the-art sensitivity-aware baselines (up to +13%) in ultra-low-bit regime, without adding runtime overhead.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.