2604.18978v1 Apr 21, 2026 cs.LG

오프라인 강화 학습에서 비평기 학습을 위한 저랭크 적응

Low-Rank Adaptation for Critic Learning in Off-Policy Reinforcement Learning

Song Han
Song Han
Citations: 7
h-index: 1
Jonathan Petit
Jonathan Petit
Citations: 47
h-index: 4
Zhuang Yuan
Zhuang Yuan
Citations: 140
h-index: 5
Yuexin Bian
Yuexin Bian
Citations: 186
h-index: 7
Sihong He
Sihong He
Citations: 400
h-index: 11
Jie Feng
Jie Feng
Citations: 31
h-index: 3
Qing Su
Qing Su
Citations: 9
h-index: 2
Shihao Ji
Shihao Ji
Citations: 10
h-index: 2
Yuanyuan Shi
Yuanyuan Shi
Citations: 22
h-index: 3
Fei Miao
Fei Miao
Citations: 65
h-index: 5

비평기 용량을 확장하는 것은 오프라인 강화 학습(RL) 성능 향상을 위한 유망한 방법입니다. 그러나 더 큰 비평기는 과적합되기 쉽고, 리플레이 버퍼 기반 부트스트랩 학습에서 불안정성을 보입니다. 본 논문에서는 오프라인 비평기에 구조적 희소성 규제 기법으로 저랭크 적응(LoRA)을 활용합니다. 저희의 접근 방식은 무작위로 초기화된 기본 행렬을 고정하고, 저랭크 어댑터만을 최적화하여 비평기 업데이트를 저차원 부분 공간으로 제한합니다. SimbaV2를 기반으로, 저희는 SimbaV2와 호환되는 LoRA 수식을 개발하여, 고정된 기본 구조 하에서 SimbaV2의 초구면 정규화 기하 구조를 유지합니다. 저희 방법은 SAC 및 FastTD3 알고리즘을 사용하여 DeepMind Control 로봇 제어 및 IsaacLab 로봇 벤치마크에서 평가되었습니다. LoRA는 학습 과정에서 일관적으로 더 낮은 비평기 손실을 달성하고, 더 강력한 정책 성능을 보였습니다. 광범위한 실험 결과는 적응적인 저랭크 업데이트가 오프라인 강화 학습에서 비평기 학습을 위한 간단하고 확장 가능하며 효과적인 구조적 규제 기법임을 보여줍니다.

Original Abstract

Scaling critic capacity is a promising direction for enhancing off-policy reinforcement learning (RL). However, larger critics are prone to overfitting and unstable in replay-buffer-based bootstrap training. This paper leverages Low-Rank Adaptation (LoRA) as a structural-sparsity regularizer for off-policy critics. Our approach freezes randomly initialized base matrices and solely optimizes low-rank adapters, thereby constraining critic updates to a low-dimensional subspace. Built on top of SimbaV2, we further develop a LoRA formulation, compatible with SimbaV2, that preserves its hyperspherical normalization geometry under frozen-backbone training. We evaluate our method with SAC and FastTD3 on DeepMind Control locomotion and IsaacLab robotics benchmarks. LoRA consistently achieves lower critic loss during training and stronger policy performance. Extensive experiments demonstrate that adaptive low-rank updates provide a simple, scalable, and effective structural regularization for critic learning in off-policy RL.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!