2605.05965v1 May 07, 2026 cs.LG

균일한 보상 할당을 넘어: RLVR을 위한 선택적 적합성 추적

Beyond Uniform Credit Assignment: Selective Eligibility Traces for RLVR

Zhuang Zhan
Zhuang Zhan
Citations: 89
h-index: 4
Yu Zhang
Yu Zhang
Citations: 40
h-index: 3
Chaoli Mou
Chaoli Mou
Citations: 0
h-index: 0
Xinning Chen
Xinning Chen
Citations: 61
h-index: 6

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키는 핵심적인 접근 방식이 되었습니다. 그러나 널리 사용되는 크리틱(critic)이 없는 알고리즘인 그룹 상대 정책 최적화(GRPO)는 '균일한 보상 할당'이라는 가정을 필요로 하며, 이는 경로 수준의 장점을 무분별하게 전달하여 중요한 추론 단계를 구별하지 못함으로써 학습 효율성을 저해합니다. 이러한 한계를 해결하기 위해, 우리는 선택적 적합성 추적(S-trace)을 제안합니다. 부분적인 신뢰 영역 보존이라는 직관에 기반하여, 우리는 먼저 S-trace의 기반이 되는 P-trace라는 샘플 효율적인 크리틱이 없는 적합성 추적 방법을 도입하고, 여기에 S-trace를 구축하여 희소한 적합성 추적 메커니즘을 구현하여 분산을 더욱 줄이고 저 엔트로피 토큰을 선택적으로 마스크하여 미세한 수준의 보상 할당을 달성합니다. 이론적으로, 우리는 최근의 그룹 시퀀스 정책 최적화(GSPO) 방법을 크리틱이 없는 적합성 추적 프레임워크 내에서 분석하여, GSPO가 균일한 보상 할당을 기반으로 작동하는 적합성 추적 방법의 특수한 사례임을 밝혀냅니다. 실험 결과, S-trace는 GRPO보다 뛰어난 성능을 보이며, Qwen3-1.7B 모델에서 0.49%, Qwen3-4B 모델에서 3.16%의 성능 향상을 보였으며, 평균 pass@16 지표에서 Qwen3-8B 모델로 확장했을 때에도 2.98%의 견고한 성능 향상을 유지합니다. 특히, S-trace는 동시에 더 높은 샘플 및 토큰 효율성을 달성합니다.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has become a key approach for improving the reasoning abilities of large language models. However, widely used critic-free algorithms such as Group Relative Policy Optimization (GRPO) necessitate a ``uniform credit assignment'' assumption that indiscriminately broadcast trajectory-level advantages, hindering learning efficiency by failing to distinguish critical reasoning steps. To address this limitation, we propose Selective Eligibility Traces (S-trace). Grounded in the intuition of partial trust region preservation, we initially introduce P-trace as a sample-efficient, critic-free eligibility traces method, upon which we build S-trace, implementing a sparse eligibility traces mechanism to further mitigate variance and achieve fine-grained credit assignment by selectively masking low-entropy tokens. Theoretically, we contextualize the recent Group Sequence Policy Optimization (GSPO) method within the critic-free eligibility traces framework, identifying it as a special instance of the eligibility traces method operating under uniform credit assignment. Experiments demonstrate that S-trace not only outperforms GRPO, showing gains of 0.49\% on Qwen3-1.7B and 3.16\% on Qwen3-4B, and maintaining a robust 2.98\% improvement when scaled further to Qwen3-8B in average pass@16, but notably achieves this with simultaneously higher sample and token efficiency.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!