2602.02126v1 Feb 02, 2026 cs.LG

LLM 그룹별 양자화에 대한 2단계 그리드 최적화

Two-Stage Grid Optimization for Group-wise Quantization of LLMs

Junhan Kim
Junhan Kim
Citations: 18
h-index: 2
Gukryeol Lee
Gukryeol Lee
Citations: 20
h-index: 1
Seungwoo Son
Seungwoo Son
Citations: 0
h-index: 0
Jeewook Kim
Jeewook Kim
Citations: 7
h-index: 1
Yongkweon Jeon
Yongkweon Jeon
Citations: 33
h-index: 3

그룹별 양자화는 대규모 언어 모델(LLM)의 저비트 양자화에서 정확도 저하를 완화하는 효과적인 전략입니다. 기존 방법 중 GPTQ는 효율성으로 인해 널리 사용되지만, 그룹 스케일을 결정할 때 입력 통계 및 그룹 간 상관관계를 고려하지 않아, 각 레이어의 재구성 손실을 최소화한다는 목표와 일치하지 않습니다. 본 연구에서는 각 레이어의 재구성 손실을 명시적으로 최소화하는 그룹 스케일 최적화를 위한 2단계 프레임워크를 제안합니다. 첫 번째 단계에서는 GPTQ 이전에 각 그룹 스케일을 초기화하여 그룹별 재구성 손실을 최소화함으로써 입력 통계 정보를 반영합니다. 두 번째 단계에서는 GPTQ를 통해 얻은 정수 가중치를 고정하고, 각 레이어의 재구성 손실을 최소화하도록 그룹 스케일을 개선합니다. 이를 위해 좌표 하강 알고리즘을 사용하고, 효율적인 개선을 가능하게 하는 폐쇄형 업데이트 규칙을 도출했습니다. 주목할 점은, 우리의 도출 과정에서 이전 레이어의 양자화 오차를 고려하여 오차 누적을 방지합니다. 실험 결과, 제안하는 방법은 그룹별 양자화를 지속적으로 개선하며, 무시할 만한 오버헤드로 더 높은 정확도를 달성하는 것을 보여줍니다.

Original Abstract

Group-wise quantization is an effective strategy for mitigating accuracy degradation in low-bit quantization of large language models (LLMs). Among existing methods, GPTQ has been widely adopted due to its efficiency; however, it neglects input statistics and inter-group correlations when determining group scales, leading to a mismatch with its goal of minimizing layer-wise reconstruction loss. In this work, we propose a two-stage optimization framework for group scales that explicitly minimizes the layer-wise reconstruction loss. In the first stage, performed prior to GPTQ, we initialize each group scale to minimize the group-wise reconstruction loss, thereby incorporating input statistics. In the second stage, we freeze the integer weights obtained via GPTQ and refine the group scales to minimize the layer-wise reconstruction loss. To this end, we employ the coordinate descent algorithm and derive a closed-form update rule, which enables efficient refinement without costly numerical optimization. Notably, our derivation incorporates the quantization errors from preceding layers to prevent error accumulation. Experimental results demonstrate that our method consistently enhances group-wise quantization, achieving higher accuracy with negligible overhead.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!