GeoRA: 기하학적 구조 인지 저랭크 적응 방법, RLVR에 적용
GeoRA: Geometry-Aware Low-Rank Adaptation for RLVR
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 추론 모델 발전에 매우 중요합니다. 그러나 기존의 효율적인 파라미터 조정 방법인 PiSSA와 MiLoRA는 지도 학습(SFT)에 맞춰 설계되었으며, RLVR의 고유한 최적화 동역학과 기하학적 구조를 고려하지 않습니다. 이러한 방법들을 그대로 적용하면 스펙트럼 붕괴 및 최적화 불안정성이 발생하여 모델 성능을 심각하게 저하시킵니다. 반면, 업데이트 희소성을 활용하는 다른 접근 방식은 현대 하드웨어에서 구조화되지 않은 계산으로 인해 상당한 효율성 병목 현상을 겪습니다. 이러한 문제점을 해결하기 위해, 우리는 RL 업데이트 공간의 이방성 및 압축성을 활용하는 GeoRA (Geometry-Aware Low-Rank Adaptation)를 제안합니다. GeoRA는 기하학적으로 제한된 부분 공간 내에서 특이값 분해(SVD)를 통해 주요 방향을 추출하여 어댑터를 초기화하고, 나머지 구성 요소는 고정합니다. 이 방법은 사전 학습된 기하학적 구조를 유지하고, 밀집 연산자를 통해 효율적인 GPU 계산을 가능하게 합니다. Qwen과 Llama 모델에 대한 실험 결과, GeoRA는 기하학적 불일치로 인한 최적화 병목 현상을 완화하며, 주요 수학 벤치마크에서 기존의 저랭크 방법보다 뛰어난 성능을 보이며, 최첨단(SOTA) 결과를 달성합니다. 또한, GeoRA는 일반화 성능이 우수하며, 외부 도메인 작업에서 재앙적 망각에 대한 저항력이 뛰어납니다.
Reinforcement Learning with Verifiable Rewards (RLVR) is crucial for advancing large-scale reasoning models. However, existing parameter-efficient methods, such as PiSSA and MiLoRA, are designed for Supervised Fine-Tuning (SFT) and do not account for the distinct optimization dynamics and geometric structures of RLVR. Applying these methods directly leads to spectral collapse and optimization instability, which severely limit model performance. Meanwhile, alternative approaches that leverage update sparsity encounter significant efficiency bottlenecks on modern hardware due to unstructured computations. To address these challenges, we propose GeoRA (Geometry-Aware Low-Rank Adaptation), which exploits the anisotropic and compressible nature of RL update subspaces. GeoRA initializes adapters by extracting principal directions via Singular Value Decomposition (SVD) within a geometrically constrained subspace while freezing the residual components. This method preserves the pre-trained geometric structure and enables efficient GPU computation through dense operators. Experiments on Qwen and Llama demonstrate that GeoRA mitigates optimization bottlenecks caused by geometric misalignment. It consistently outperforms established low-rank baselines on key mathematical benchmarks, achieving state-of-the-art (SOTA) results. Moreover, GeoRA shows superior generalization and resilience to catastrophic forgetting in out-of-domain tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.