2602.04998v1 Feb 04, 2026 cs.LG

학습률이 중요합니다: 기본적인 LoRA만으로도 LLM 미세 조정을 충분히 수행할 수 있습니다

Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning

Yu-Ang Lee
Yu-Ang Lee
Citations: 15
h-index: 3
Ching-Yun Ko
Ching-Yun Ko
Citations: 140
h-index: 5
Pin-Yu Chen
Pin-Yu Chen
Citations: 10
h-index: 3
M. Yeh
M. Yeh
Citations: 9
h-index: 2

로우-랭크 어댑테이션(LoRA)은 효율적인 대규모 언어 모델(LLM) 미세 조정에 널리 사용되는 방법입니다. 이러한 패러다임을 기반으로, 최근 연구에서는 대체 초기화 전략 및 아키텍처 수정 방안을 제시하며, 기본적인 LoRA에 비해 상당한 성능 향상을 보고 있습니다. 그러나 이러한 개선 사항은 종종 고정되거나 제한적으로 조정된 하이퍼파라미터 설정 하에서만 나타나며, 이는 신경망이 훈련 구성에 민감하게 반응한다는 점을 고려할 때 문제입니다. 본 연구에서는 광범위한 하이퍼파라미터 탐색을 통해 네 가지 대표적인 LoRA 변형과 기본적인 LoRA를 체계적으로 재평가했습니다. 다양한 모델 크기에서 수학 및 코드 생성 작업에 대해, 서로 다른 LoRA 방법이 뚜렷하게 다른 학습률 범위를 선호한다는 것을 발견했습니다. 중요한 점은, 학습률이 적절하게 조정되면 모든 방법이 유사한 최고 성능을 달성하며(1-2% 이내), 순위 의존적인 미묘한 차이만 나타낸다는 것입니다. 이러한 결과는 기본적인 LoRA가 여전히 경쟁력 있는 기준이며, 특정 훈련 구성 하에서 보고되는 개선 사항이 일관된 방법론적 장점을 반영하지 않을 수 있음을 시사합니다. 마지막으로, 2차 분석을 통해 서로 다른 최적 학습률 범위가 가장 큰 헤세 행렬의 고유값 변화에 기인한다는 것을 밝혀냈으며, 이는 고전적인 학습 이론과 일치합니다.

Original Abstract

Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.

3 Citations
0 Influential
2.5 Altmetric
15.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!