2604.16940v1 Apr 18, 2026 cs.LG

D-QRELO: 양자화 및 잔차 저랭크 근사를 통한 대규모 언어 모델의 학습 및 데이터 없이 수행되는 델타 압축

D-QRELO: Training- and Data-Free Delta Compression for Large Language Models via Quantization and Residual Low-Rank Approximation

Xuebo Liu
Xuebo Liu
Citations: 413
h-index: 11
Ngai Wong
Ngai Wong
Citations: 76
h-index: 5
Min Zhang
Min Zhang
Citations: 17
h-index: 3
Junlin Li
Junlin Li
Citations: 26
h-index: 3
Guodong Du
Guodong Du
Citations: 126
h-index: 5
Jing Li
Jing Li
Citations: 7
h-index: 2
Xuelong Li
Xuelong Li
Citations: 20
h-index: 3
Shuangyong Song
Shuangyong Song
Citations: 54
h-index: 4
Yongxiang Li
Yongxiang Li
Citations: 133
h-index: 7

지도 학습 미세 조정(SFT)은 특정 작업에 최적화된 대규모 언어 모델(LLM) 개발을 가속화하지만, 이로 인해 생성되는 미세 조정된 모델의 증가는 상당한 메모리 오버헤드를 초래합니다. 델타 압축은 단일 사전 학습된 LLM을 유지하고 여러 개의 압축된 델타 가중치를 사용하여 이 문제를 해결합니다. 그러나 기존 방법은 대규모 데이터 세트로 미세 조정된 모델에서 제대로 작동하지 않습니다. 우리는 더 큰 SFT 데이터 크기가 델타 매개변수의 크기, 고유값 및 엔트로피를 증폭시켜 압축 오류를 악화시킨다는 것을 발견했습니다. 이를 해결하기 위해, 우리는 학습 및 데이터 없이 수행되는 새로운 델타 압축 방법인 DQRELO(Delta Compression via Quantization and Residual Low-Rank)를 제안합니다. DQRELO는 델타의 주요 구조를 캡처하기 위한 조잡한 1비트 양자화를 사용한 다음, 더 작은 잔차 오류에서 미세한 세부 정보를 복구하기 위한 보정된 잔차 저랭크 근사화를 결합합니다. 다양한 도메인에서 밀집 아키텍처와 MoE 아키텍처를 모두 포함하는 다양한 LLM에 대한 실험 결과, DQRELO가 어려운 환경에서 기존 방법보다 우수한 성능을 보임을 보여줍니다. 또한, 광범위한 실증적 분석을 통해 델타 압축의 주요 설계 원칙을 확립하고, 작업 난이도, 아키텍처 및 레이어 위치가 예측 가능한 패턴을 만들어 실제 시스템에서 최적의 압축 전략을 안내할 수 있음을 보여줍니다.

Original Abstract

Supervised Fine-Tuning (SFT) accelerates taskspecific large language models (LLMs) development, but the resulting proliferation of finetuned models incurs substantial memory overhead. Delta compression addresses this by retaining a single pre-trained LLM with multiple compressed delta weights. However, existing methods fail on models fine-tuned with largescale datasets. We find that larger SFT data scale amplifies delta parameter magnitude, singular values, and entropy, exacerbating compression errors. To tackle this, we propose DQRELO (Delta Compression via Quantization and Residual Low-Rank), a novel training- and data-free delta compression method. It combines coarse-grained one-bit quantization to capture the dominant structure of the delta, followed by compensated residual low-rank approximation to recover fine-grained details from the smaller residual error. Experiments on various LLMs spanning dense and MoE architectures across multiple domains under this challenging setting demonstrate that DQRELO outperforms existing methods. Moreover, we establish key design principles for delta compression through extensive empirical analysis, demonstrating how task difficulty, architecture, and layer positioning create predictable patterns that can guide optimal compression strategies in production systems.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!