2605.06523v1 May 07, 2026 cs.LG

RLVR에서의 잠재적 보상 과적합과 저랭크 동역학에 대한 연구

On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR

Tat-Seng Chua
Tat-Seng Chua
Citations: 44
h-index: 3
Yizhou Zhang
Yizhou Zhang
Citations: 9
h-index: 2
Hao Ye
Hao Ye
Citations: 1,178
h-index: 2
Jisheng Dang
Jisheng Dang
Citations: 119
h-index: 4
J. Fang
J. Fang
Citations: 10
h-index: 2
Bimei Wang
Bimei Wang
Citations: 27
h-index: 3
Ning Lv
Ning Lv
Citations: 5
h-index: 1
Wencan Zhang
Wencan Zhang
Citations: 305
h-index: 7
Hong Peng
Hong Peng
Citations: 84
h-index: 5
Bin Hu
Bin Hu
Citations: 1
h-index: 1

최근 연구에 따르면, 검증 가능한 보상을 사용한 강화 학습(RLVR)을 통해 모델이 얻는 향상된 추론 능력은 주로 랭크-1 구성 요소 내에 집중되어 있습니다. 이러한 관찰을 바탕으로, 우리는 주기적인 랭크-1 대체법을 사용하여 역설적인 현상을 발견했습니다. 즉, RLVR은 훈련 데이터 세트에 대한 잠재적인 보상 과적합을 나타낼 수 있습니다. 구체적으로, 모델은 훈련 과정에서 보상이 상대적으로 낮은 경우에도 테스트 세트에서 만족스러운 성능을 달성할 수 있습니다. 또한, 우리는 강화 학습의 세 가지 뚜렷한 특징을 분석했습니다. (1) RLVR에서 효과적인 랭크-1 구성 요소는 수학적 추론 능력 외에 다른 모델 지식을 유지하지 않습니다. (2) RLVR은 근본적으로 특정 특이 스펙트럼을 최적화하는 방식으로 작동하며, RLVR로 훈련된 모델의 거의 모든 선형 레이어의 특이값 분포는 묵직한 꼬리 분포를 나타냅니다. (3) 랭크-1 구성 요소와 관련된 왼쪽 특이 벡터는 훈련 중에 더 강한 정렬 경향을 보이며, 이는 RLVR이 본질적으로 샘플링 효율성을 최적화하고 있다는 기존의 발견을 뒷받침합니다. 종합적으로, 우리의 연구 결과와 분석은 RLVR이 모델 파라미터를 어떻게 형성하는지 더 자세히 밝히며, 기존의 강화 학습 패러다임 또는 다른 훈련 패러다임을 개선하여 지속적인 학습을 구현할 수 있는 잠재적인 통찰력을 제공합니다.

Original Abstract

Recent extensive research has demonstrated that the enhanced reasoning capabilities acquired by models through Reinforcement Learning with Verifiable Rewards (RLVR) are primarily concentrated within the rank-1 components. Predicated on this observation, we employed Periodic Rank-1 Substitution and identified a counterintuitive phenomenon: RLVR may exhibit implicit reward overfitting to the training dataset. Specifically, the model can achieve satisfactory performance on the test set even when its rewards remain relatively low during the training process. Furthermore, we characterize three distinct properties of RL training: (1) The effective rank-1 component in RLVR don't maintain other model knowledge except mathematical reasoning capability. (2) RLVR fundamentally functions by optimizing a specific singular spectrum. The distribution of singular values of almost all linear layers in RLVR-trained model behaves like heavy-tailed distribution. (3) the left singular vectors associated with rank-1 components demonstrate a stronger alignment tendency during training, which echoes the discovery that RLVR is optimizing sampling efficiency in essence. Taken together, our findings and analysis further reveal how RLVR shapes model parameters and offer potential insights for improving existing RL paradigms or other training paradigms to implement continual learning.

1 Citations
0 Influential
3.5 Altmetric
18.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!