2601.22716v1 Jan 30, 2026 cs.LG

장벽을 허물다: 통일된 LLM 양자화 및 적응을 위한 연속적인 저랭크 분해 스케일링

Breaking the Blocks: Continuous Low-Rank Decomposed Scaling for Unified LLM Quantization and Adaptation

Pingzhi Tang
Pingzhi Tang
Citations: 23
h-index: 2
Ruijie Zhou
Ruijie Zhou
Citations: 8
h-index: 2
Fanxu Meng
Fanxu Meng
Citations: 275
h-index: 5
Wenjie Pei
Wenjie Pei
Citations: 2,285
h-index: 26
Muhan Zhang
Muhan Zhang
Citations: 375
h-index: 6

현재 LLM 양자화 방법은 효율성을 유지하기 위해 주로 블록 기반 구조에 의존하지만, 이는 종종 표현 유연성을 저해합니다. 본 연구에서는 요소 단위 양자화를 통해 블록 기반 스케일링만큼 효율성을 달성하면서도, 스케일링 공간을 연속적인 저랭크 행렬($S = BA$)로 모델링함으로써 훨씬 더 뛰어난 표현력을 제공할 수 있음을 보여줍니다. 우리는 저랭크 분해 스케일링(LoRDS)이라는 통합 프레임워크를 제안합니다. 이 프레임워크는 저랭크 분해를 통해 양자화의 세분성을 재정의합니다. LoRDS는 공간적 제약의 '장벽'을 허물어 다음과 같은 효율적인 라이프사이클을 구축합니다. 반복적인 최적화를 통해 높은 정확도를 가진 PTQ 초기화를 제공하고, 가중치와 스케일링 계수의 공동 양자화 학습(QAT)을 가능하게 하며, 고랭크 곱셈 PEFT 적응을 용이하게 합니다. QLoRA와 같은 가산 PEFT 방식과 달리, LoRDS는 저랭크 예산 내에서 고랭크 가중치 업데이트를 가능하게 하며, 추가적인 추론 오버헤드를 발생시키지 않습니다. 고도로 최적화된 Triton 커널을 기반으로, LoRDS는 다양한 모델 패밀리에서 양자화 및 후속 미세 조정 작업 모두에서 최첨단 기준 모델보다 일관되게 우수한 성능을 보입니다. 특히, Llama3-8B 모델에서 LoRDS는 NormalFloat 양자화에 비해 3비트에서 최대 27.0%의 정확도 향상을 달성했으며, NVIDIA RTX 4090에서 1.5배 빠른 추론 속도를 제공하면서, 하위 작업에서 4비트 QLoRA보다 PEFT 성능을 9.6% 향상시켰습니다. 이는 LLM의 통합적인 압축 및 적응을 위한 강력하고 효율적인 솔루션을 제공합니다.

Original Abstract

Current quantization methods for LLMs predominantly rely on block-wise structures to maintain efficiency, often at the cost of representational flexibility. In this work, we demonstrate that element-wise quantization can be made as efficient as block-wise scaling while providing strictly superior expressive power by modeling the scaling manifold as continuous low-rank matrices ($S = BA$). We propose Low-Rank Decomposed Scaling (LoRDS), a unified framework that rethinks quantization granularity through this low-rank decomposition. By "breaking the blocks" of spatial constraints, LoRDS establishes a seamless efficiency lifecycle: it provides high-fidelity PTQ initialization refined via iterative optimization, enables joint QAT of weights and scaling factors, and facilitates high-rank multiplicative PEFT adaptation. Unlike additive PEFT approaches such as QLoRA, LoRDS enables high-rank weight updates within a low-rank budget while incurring no additional inference overhead. Supported by highly optimized Triton kernels, LoRDS consistently outperforms state-of-the-art baselines across various model families in both quantization and downstream fine-tuning tasks. Notably, on Llama3-8B, our method achieves up to a 27.0% accuracy improvement at 3 bits over NormalFloat quantization and delivers a 1.5x inference speedup on NVIDIA RTX 4090 while enhancing PEFT performance by 9.6% on downstream tasks over 4bit QLoRA, offering a robust and integrated solution for unified compression and adaptation of LLMs.

0 Citations
0 Influential
13 Altmetric
65.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!