2603.25284v1 Mar 26, 2026 cs.AI

SliderQuant: LLM의 정확한 사후 양자화 방법

SliderQuant: Accurate Post-Training Quantization for LLMs

Chao Li
Chao Li
Citations: 61
h-index: 4
Jiawei Fan
Jiawei Fan
Citations: 34
h-index: 2
Z. Ou
Z. Ou
Citations: 148
h-index: 6
Anbang Yao
Anbang Yao
Citations: 52
h-index: 3
Shigeng Wang
Shigeng Wang
Citations: 65
h-index: 3
Yangyuxuan Kang
Yangyuxuan Kang
Citations: 22
h-index: 3

본 논문에서는 대규모 언어 모델(LLM)에 대한 사후 양자화(PTQ)를 기존의 간과된 관점에서 접근합니다. 사전 훈련된 고정밀 LLM을 사용할 때, 대부분의 순차적 양자화 프레임워크는 모든 레이어를 동일하게 취급하지만, 특히 낮은 비트폭 환경에서는 이것이 최적이 아닐 수 있습니다. 본 연구에서는 다양한 레이어의 양자화가 모델 정확도에 미치는 영향을 실증적으로 분석하고, 다음과 같은 사실을 확인했습니다. (1) 얕거나 깊은 레이어는 중간 레이어보다 양자화에 더 민감하며, (2) 얕거나 깊은 레이어 중 가장 민감한 레이어는 일반적으로 첫 번째 또는 마지막 레이어로, 다른 레이어보다 훨씬 큰 양자화 오차를 나타냅니다. 이러한 실증적 관찰 결과는 LLM의 각 레이어에 대한 양자화 설계가 단일 수준이 아닌 여러 수준으로 이루어져야 함을 시사합니다. 이러한 점에 착안하여, 우리는 소수의 학습 가능한 파라미터를 활용하는 간단한 적응형 슬라이딩 양자화 개념에 기반한 새로운 PTQ 프레임워크인 Sliding-layer Quantization (SliderQuant)을 제안합니다. SliderQuant의 핵심 구성 요소인 인터레이어 슬라이딩 양자화는 얕은, 중간, 깊은 레이어의 다양한 양자화 민감도를 해결하기 위해 설계된 세 가지 새로운 슬라이딩 윈도우 디자인을 포함합니다. 또한, 인트라레이어 슬라이딩 양자화는 각 윈도우를 양자화하기 위해 점진적인 전략을 사용합니다. 결과적으로, SliderQuant는 레이어 전체에 걸쳐 양자화 오류를 줄이는 데 강력한 능력을 보여줍니다. Llama/Llama2/Llama3/Qwen2.5 모델 패밀리, DeepSeek-R1 증류 모델 및 대규모 MoE 모델을 포함한 다양한 LLM을 사용한 기본적인 언어 생성, 제로샷 상식 추론 및 어려운 수학 및 코딩 작업에 대한 광범위한 실험 결과, 우리의 방법은 기존의 PTQ 방법(회전 변환을 사용하는 최신 PTQ 방법 포함)을 모두 능가하며, 가중치만 양자화하는 경우와 가중치-활성화 양자화 모두에서 우수한 성능을 보였습니다.

Original Abstract

In this paper, we address post-training quantization (PTQ) for large language models (LLMs) from an overlooked perspective: given a pre-trained high-precision LLM, the predominant sequential quantization framework treats different layers equally, but this may be not optimal in challenging bit-width settings. We empirically study the quantization impact of different layers on model accuracy, and observe that: (1) shallow/deep layers are usually more sensitive to quantization than intermediate layers; (2) among shallow/deep layers, the most sensitive one is the first/last layer, which exhibits significantly larger quantization error than others. These empirical observations imply that the quantization design for different layers of LLMs is required on multiple levels instead of a single level shared to all layers. Motivated by this, we propose a new PTQ framework termed Sliding-layer Quantization (SliderQuant) that relies on a simple adaptive sliding quantization concept facilitated by few learnable parameters. The base component of SliderQuant is called inter-layer sliding quantization, which incorporates three types of novel sliding window designs tailored for addressing the varying quantization sensitivity of shallow, intermediate and deep layers. The other component is called intra-layer sliding quantization that leverages an incremental strategy to quantize each window. As a result, SliderQuant has a strong ability to reduce quantization errors across layers. Extensive experiments on basic language generation, zero-shot commonsense reasoning and challenging math and code tasks with various LLMs, including Llama/Llama2/Llama3/Qwen2.5 model families, DeepSeek-R1 distilled models and large MoE models, show that our method outperforms existing PTQ methods (including the latest PTQ methods using rotation transformations) for both weight-only quantization and weight-activation quantization.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!