오프라인 강화 학습에서 비평기 학습을 위한 저랭크 적응
Low-Rank Adaptation for Critic Learning in Off-Policy Reinforcement Learning
비평기 용량을 확장하는 것은 오프라인 강화 학습(RL) 성능 향상을 위한 유망한 방법입니다. 그러나 더 큰 비평기는 과적합되기 쉽고, 리플레이 버퍼 기반 부트스트랩 학습에서 불안정성을 보입니다. 본 논문에서는 오프라인 비평기에 구조적 희소성 규제 기법으로 저랭크 적응(LoRA)을 활용합니다. 저희의 접근 방식은 무작위로 초기화된 기본 행렬을 고정하고, 저랭크 어댑터만을 최적화하여 비평기 업데이트를 저차원 부분 공간으로 제한합니다. SimbaV2를 기반으로, 저희는 SimbaV2와 호환되는 LoRA 수식을 개발하여, 고정된 기본 구조 하에서 SimbaV2의 초구면 정규화 기하 구조를 유지합니다. 저희 방법은 SAC 및 FastTD3 알고리즘을 사용하여 DeepMind Control 로봇 제어 및 IsaacLab 로봇 벤치마크에서 평가되었습니다. LoRA는 학습 과정에서 일관적으로 더 낮은 비평기 손실을 달성하고, 더 강력한 정책 성능을 보였습니다. 광범위한 실험 결과는 적응적인 저랭크 업데이트가 오프라인 강화 학습에서 비평기 학습을 위한 간단하고 확장 가능하며 효과적인 구조적 규제 기법임을 보여줍니다.
Scaling critic capacity is a promising direction for enhancing off-policy reinforcement learning (RL). However, larger critics are prone to overfitting and unstable in replay-buffer-based bootstrap training. This paper leverages Low-Rank Adaptation (LoRA) as a structural-sparsity regularizer for off-policy critics. Our approach freezes randomly initialized base matrices and solely optimizes low-rank adapters, thereby constraining critic updates to a low-dimensional subspace. Built on top of SimbaV2, we further develop a LoRA formulation, compatible with SimbaV2, that preserves its hyperspherical normalization geometry under frozen-backbone training. We evaluate our method with SAC and FastTD3 on DeepMind Control locomotion and IsaacLab robotics benchmarks. LoRA consistently achieves lower critic loss during training and stronger policy performance. Extensive experiments demonstrate that adaptive low-rank updates provide a simple, scalable, and effective structural regularization for critic learning in off-policy RL.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.