GRIT: 기하학적 정보를 고려한 효율적인 파라미터 조정 방법 (K-FAC 전처리, Fisher 가이드 리프로젝션, 동적 랭크 적응)
GRIT -- Geometry-Aware PEFT with K-FACPreconditioning, Fisher-Guided Reprojection, andDynamic Rank Adaptation
파라미터 효율적인 미세 조정(PEFT)은 LLM을 적응시키는 일반적인 방법이지만, 널리 사용되는 LoRA 및 QLoRA는 대부분 기하학적 구조를 고려하지 않습니다. 이들은 고정된, 임의의 방향을 가진 저랭크 부분 공간에서 1차 미분 방법을 사용하여 최적화를 수행하며, 이는 로컬 손실 곡률을 대부분 무시합니다. 이는 효과적인 업데이트 예산을 증가시키고, 제약 조건이 약한 방향으로의 편향을 증폭시킬 수 있습니다. 본 논문에서는 GRIT을 소개합니다. GRIT은 동적이며 곡률을 고려하는 LoRA 절차로, LoRA 파라미터화는 유지하면서 다음을 수행합니다. (1) K-FAC을 자연 경사(natural-gradient)의 대리값으로 사용하여 랭크 공간에서 그래디언트를 전처리합니다. (2) 주기적으로 저랭크 기반을 주요 Fisher 고유 방향으로 리프로젝션하여 편향을 억제합니다. (3) 스펙트럼을 기반으로 효과적인 랭크를 적응시켜, 신호가 존재하는 영역에 용량을 집중시킵니다. LLaMA 기반 모델에서 Instruction-following, 이해, 추론 벤치마크를 통해 GRIT은 LoRA 및 QLoRA와 동등하거나 우수한 성능을 보였으며, 평균적으로 훈련 가능한 파라미터 수를 46% 줄였습니다 (작업별로 25~80% 감소). 프롬프트 스타일 및 데이터 조합에 대한 실질적인 품질 손실은 없었습니다. 또한, 망각 현상을 모델링하기 위해 곡률에 따른 거듭제곱 법칙을 사용했습니다. 실험 결과, GRIT은 강력한 PEFT-최적화 기준(Orthogonal-LoRA, IA3, DoRA, Eff-FT, Shampoo)보다 낮은 편향을 보였으며, 업데이트 대비 유지 성능(updates-vs-retention frontier)이 더 우수했습니다.
Parameter-efficient fine-tuning (PEFT) is the default way to adapt LLMs, but widely used LoRA and QLoRA are largely geometry-agnostic: they optimize in fixed, randomly oriented low-rank subspaces with first-order descent, mostly ignoring local loss curvature. This can inflate the effective update budget and amplify drift along weakly constrained directions. We introduce GRIT, a dynamic, curvature-aware LoRA procedure that preserves the LoRA parameterization but: (1) preconditions gradients in rank space using K-FAC as a natural-gradient proxy; (2) periodically reprojects the low-rank basis onto dominant Fisher eigendirections to suppress drift; and (3) adapts the effective rank from the spectrum so capacity concentrates where signal resides. Across instruction-following, comprehension, and reasoning benchmarks on LLaMA backbones, GRIT matches or surpasses LoRA and QLoRA while reducing trainable parameters by 46% on average (25--80% across tasks), without practical quality loss across prompt styles and data mixes. To model forgetting, we fit a curvature-modulated power law. Empirically, GRIT yields lower drift and a better updates-vs-retention frontier than strong PEFT-optimizer baselines (Orthogonal-LoRA, IA3, DoRA, Eff-FT, Shampoo).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.