희소성 인지 저랭크 표현을 이용한 대규모 언어 모델의 효율적인 미세 조정
Sparsity-Aware Low-Rank Representation for Efficient Fine-Tuning of Large Language Models
대규모 사전 훈련된 언어 모델을 downstream 작업에 적용하는 것은 종종 수백만 개의 파라미터를 미세 조정하거나 비용이 많이 드는 밀집 가중치 업데이트를 필요로 하며, 이는 리소스가 제한된 환경에서의 사용을 어렵게 만듭니다. Low-Rank Adaptation (LoRA)은 가중치 업데이트를 분해하여 학습 가능한 파라미터 수를 줄이지만, 여전히 기본이 되는 밀집 가중치는 높은 저장 및 계산 비용을 초래합니다. 크기 기반 가지치기는 희소 모델을 생성할 수 있지만, 일반적으로 LoRA에 무분별하게 적용하면 성능이 저하됩니다. 본 논문에서는 SALR (Sparsity-Aware Low-Rank Representation)이라는 새로운 미세 조정 방법을 제안합니다. SALR은 저랭크 적응과 희소 가지치기를 엄격한 평균 제곱 오차 프레임워크 내에서 통합합니다. 우리는 동적으로 가지만 동결된 기본 가중치만을 가지치면 가지치기 오차의 상한을 최소화한다는 것을 증명했습니다. 또한, 버려진 잔여 정보를 잘라내기된 특이값 분해 (truncated-SVD) 기반의 저랭크 어댑터를 통해 복구하여, 각 항목에 대한 평균 제곱 오차를 $(1 - r/ ext{min}(d,k))$ 비율로 줄일 수 있습니다. 하드웨어 효율성을 극대화하기 위해 여러 저랭크 어댑터를 단일 연결된 행렬-행렬 곱셈 (GEMM)으로 통합하고, 비트맵 기반 인코딩과 2단계 파이프라인 설계 (디코딩 + GEMM)를 채택하여 진정한 모델 압축 및 속도 향상을 달성했습니다. 실험 결과, SALR은 다양한 LLM에서 50%의 희소성을 달성하면서 GSM8K 및 MMLU에서 LoRA와 동등한 성능을 보이고, 모델 크기를 2배 줄이며 최대 1.7배의 추론 속도 향상을 제공합니다.
Adapting large pre-trained language models to downstream tasks often entails fine-tuning millions of parameters or deploying costly dense weight updates, which hinders their use in resource-constrained environments. Low-rank Adaptation (LoRA) reduces trainable parameters by factorizing weight updates, yet the underlying dense weights still impose high storage and computation costs. Magnitude-based pruning can yield sparse models but typically degrades LoRA's performance when applied naively. In this paper, we introduce SALR (Sparsity-Aware Low-Rank Representation), a novel fine-tuning paradigm that unifies low-rank adaptation with sparse pruning under a rigorous mean-squared-error framework. We prove that statically pruning only the frozen base weights minimizes the pruning error bound, and we recover the discarded residual information via a truncated-SVD low-rank adapter, which provably reduces per-entry MSE by a factor of $(1 - r/\min(d,k))$. To maximize hardware efficiency, we fuse multiple low-rank adapters into a single concatenated GEMM, and we adopt a bitmap-based encoding with a two-stage pipelined decoding + GEMM design to achieve true model compression and speedup. Empirically, SALR attains 50\% sparsity on various LLMs while matching the performance of LoRA on GSM8K and MMLU, reduces model size by $2\times$, and delivers up to a $1.7\times$ inference speedup.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.