베이지안-LoRA: 대규모 언어 모델의 확률적 저랭크 적응
Bayesian-LoRA: Probabilistic Low-Rank Adaptation of Large Language Models
대규모 언어 모델(LLM)은 일반적으로 정확성에 더 큰 비중을 두기 때문에, 예측에 대한 확신이 없을 때에도 추측하는 경향이 있습니다. 특히, 작은 데이터 세트로 미세 조정할 때 이러한 경향은 오보정(miscalibration) 문제를 더욱 심화시킵니다. 본 연구에서는 희소 가우시안 프로세스(Sparse Gaussian Processes)에서 영감을 받은 확률적 저랭크 표현 방식을 통해 기존의 결정론적 LoRA 업데이트를 재구성한 베이지안-LoRA를 제안합니다. 우리는 LoRA의 분해와 크로네커-분해된 SGP의 사후 분포(posterior) 사이의 구조적 동형 이성질성을 확인하고, 사후 불확실성이 붕괴될 때 LoRA가 극한의 경우로 나타나는 것을 보였습니다. 다양한 LLM 아키텍처를 대상으로 상식 추론 벤치마크에서 광범위한 실험을 수행했습니다. 베이지안-LoRA는 약 0.42M 개의 추가 파라미터와 표준 LoRA에 비해 약 1.2배의 학습 비용으로, 30B 모델까지 모델 전체의 오보정 성능을 크게 향상시킵니다. 베이지안-LoRA는 ECE(Expected Calibration Error)를 최대 84% 감소시키고, NLL(Negative Log-Likelihood)을 최대 76% 감소시키면서, 인-분포(in-distribution) 및 아웃-오브-분포(out-of-distribution, OoD) 평가 모두에서 경쟁력 있는 정확도를 유지합니다.
Large Language Models usually put more emphasis on accuracy and therefore, will guess even when not certain about the prediction, which is especially severe when fine-tuned on small datasets due to the inherent tendency toward miscalibration. In this work, we introduce Bayesian-LoRA, which reformulates the deterministic LoRA update as a probabilistic low-rank representation inspired by Sparse Gaussian Processes. We identify a structural isomorphism between LoRA's factorization and Kronecker-factored SGP posteriors, and show that LoRA emerges as a limiting case when posterior uncertainty collapses. We conduct extensive experiments on various LLM architectures across commonsense reasoning benchmarks. With only approximately 0.42M additional parameters and ${\approx}1.2{\times}$ training cost relative to standard LoRA, Bayesian-LoRA significantly improves calibration across models up to 30B, achieving up to 84% ECE reduction and 76% NLL reduction while maintaining competitive accuracy for both in-distribution and out-of-distribution (OoD) evaluations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.