2602.02546v2 Jan 30, 2026 cs.LG

D²Quant: LLM을 위한 정확한 저비트 사후 학습 가중치 양자화

D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs

Ruobing Xie
Ruobing Xie
Citations: 748
h-index: 9
Zhiteng Li
Zhiteng Li
Citations: 92
h-index: 5
Xianglong Yan
Xianglong Yan
Citations: 45
h-index: 4
Chengzhu Bao
Chengzhu Bao
Citations: 3
h-index: 1
Tianao Zhang
Tianao Zhang
Citations: 42
h-index: 4
Shaoqiu Zhang
Shaoqiu Zhang
Citations: 2
h-index: 1
Samm Sun
Samm Sun
Citations: 1
h-index: 1
Yulun Zhang
Yulun Zhang
Citations: 42
h-index: 5

대규모 언어 모델(LLM)은 뛰어난 성능을 제공하지만, 높은 계산 및 메모리 비용으로 인해 자원 제약적인 환경에서의 배포가 어렵습니다. 가중치만을 사용하는 사후 학습 양자화(PTQ)는 메모리 사용량을 줄이고, 저비트 연산 또는 특수 하드웨어 없이도 실질적인 속도 향상을 가능하게 하므로 매력적인 방법입니다. 그러나 가중치만 사용하는 PTQ에서 4비트 미만의 정밀도로는 정확도가 크게 저하되는 경우가 많으며, 저희의 분석에 따르면 이는 다음과 같은 두 가지 주요 원인으로 인해 발생합니다. (1) 다운-프로젝션 행렬은 잘 알려진 양자화 병목 현상을 일으키며, 이들의 정확도를 유지하려면 추가적인 비트 폭이 필요합니다. (2) 가중치 양자화는 활성화 값의 편차를 유발하지만, 효과적인 수정 전략은 아직 충분히 연구되지 않았습니다. 이러한 문제를 해결하기 위해, 저희는 가중치와 활성화 측면 모두에서 양자화를 개선하는 새로운 가중치만 사용하는 PTQ 프레임워크인 D²Quant를 제안합니다. 가중치 측면에서, 저희는 다운-프로젝션 행렬에 최적화된 이중 스케일 양자화기(DSQ)를 설계했으며, 이는 비트 예산을 늘리지 않고도 정확도를 크게 향상시키는 흡수 가능한 스케일링 인자를 사용합니다. 활성화 측면에서, 저희는 양자화로 인한 활성화 분포의 변화를 완화하기 위해 LayerNorm 내에 평균 이동 수정(DAC)을 통합하는 Deviation-Aware Correction(DAC)을 제안합니다. 다양한 LLM 패밀리와 평가 지표에 대한 광범위한 실험 결과, D²Quant는 4비트 미만의 정밀도에서 가중치만 사용하는 PTQ에 대해 우수한 성능을 제공하는 것으로 나타났습니다. 코드 및 모델은 https://github.com/XIANGLONGYAN/D2Quant 에서 확인할 수 있습니다.

Original Abstract

Large language models (LLMs) deliver strong performance, but their high compute and memory costs make deployment difficult in resource-constrained scenarios. Weight-only post-training quantization (PTQ) is appealing, as it reduces memory usage and enables practical speedup without low-bit operators or specialized hardware. However, accuracy often degrades significantly in weight-only PTQ at sub-4-bit precision, and our analysis identifies two main causes: (1) down-projection matrices are a well-known quantization bottleneck, but maintaining their fidelity often requires extra bit-width; (2) weight quantization induces activation deviations, but effective correction strategies remain underexplored. To address these issues, we propose D$^2$Quant, a novel weight-only PTQ framework that improves quantization from both the weight and activation perspectives. On the weight side, we design a Dual-Scale Quantizer (DSQ) tailored to down-projection matrices, with an absorbable scaling factor that significantly improves accuracy without increasing the bit budget. On the activation side, we propose Deviation-Aware Correction (DAC), which incorporates a mean-shift correction within LayerNorm to mitigate quantization-induced activation distribution shifts. Extensive experiments across multiple LLM families and evaluation metrics show that D$^2$Quant delivers superior performance for weight-only PTQ at sub-4-bit precision. The code and models will be available at https://github.com/XIANGLONGYAN/D2Quant.

1 Citations
0 Influential
31.431471805599 Altmetric
158.2 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!