2602.08499v1 Feb 09, 2026 cs.LG

검증 가능한 보상을 갖춘 강화 학습을 위한 문맥 기반 롤아웃 방니트 알고리즘

Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards

Fuzhen Zhuang
Fuzhen Zhuang
Citations: 36
h-index: 3
Yikun Ban
Yikun Ban
Citations: 35
h-index: 4
Deqing Wang
Deqing Wang
Citations: 24
h-index: 3
Guojun Yin
Guojun Yin
Citations: 147
h-index: 6
Wei Lin
Wei Lin
Citations: 141
h-index: 6
Yu Luo
Yu Luo
Citations: 168
h-index: 5
Xiaodong Lu
Xiaodong Lu
Citations: 11
h-index: 1
Xiaohan Wang
Xiaohan Wang
Citations: 39
h-index: 3
Jiajun Chai
Jiajun Chai
Citations: 53
h-index: 4
Zhijun Chen
Zhijun Chen
Beihang University
Citations: 206
h-index: 7

검증 가능한 보상을 갖춘 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키는 효과적인 방법론입니다. 그러나 기존의 RLVR 방법들은 롤아웃을 무분별하게 사용하고 단기적인 관점에서 활용합니다. 즉, 각 프롬프트 내의 다양한 품질의 응답들을 동일하게 취급하고, 과거 롤아웃 기록은 단 한 번 사용 후 버려집니다. 이는 노이즈가 많은 지도 학습, 낮은 샘플 효율성, 그리고 최적 이하의 정책 업데이트로 이어집니다. 우리는 이러한 문제들을 해결하기 위해 RLVR에서 롤아웃 스케줄링을 문맥 기반 방니트 문제로 정의하고, 훈련 과정 전반에 걸쳐 고성능 롤아웃을 적응적으로 선택하는 통합 신경망 스케줄링 프레임워크를 제안합니다. 각 롤아웃은 성능 향상 정도에 따라 보상이 정의된 'arm'으로 간주됩니다. 제안하는 스케줄러는 노이즈를 고려한 그룹 내 선택과 역사적 롤아웃의 적응적인 전역 재사용을 하나의 체계적인 프레임워크 내에서 지원합니다. 우리는 이론적인 근거를 제공하기 위해 부분 선형 후회 경계를 유도하고, 롤아웃 버퍼를 확장하면 달성 가능한 성능 상한이 향상됨을 보여줍니다. 6가지 수학적 추론 벤치마크에서의 실험 결과는 다양한 RLVR 최적화 방법에서 성능과 훈련 효율성 모두에서 일관된 향상을 보여줍니다.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) is an effective paradigm for improving the reasoning capabilities of large language models. However, existing RLVR methods utilize rollouts in an indiscriminate and short-horizon manner: responses of heterogeneous quality within each prompt are treated uniformly, and historical rollouts are discarded after a single use. This leads to noisy supervision, poor sample efficiency, and suboptimal policy updates. We address these issues by formulating rollout scheduling in RLVR as a contextual bandit problem and proposing a unified neural scheduling framework that adaptively selects high-value rollouts throughout training. Each rollout is treated as an arm whose reward is defined by the induced performance gain between consecutive optimization steps. The resulting scheduler supports both noise-aware intra-group selection and adaptive global reuse of historical rollouts within a single principled framework. We provide theoretical justification by deriving sublinear regret bounds and showing that enlarging the rollout buffer improves the achievable performance upper bound. Experiments on six mathematical reasoning benchmarks demonstrate consistent gains in performance and training efficiency across multiple RLVR optimization methods.

1 Citations
0 Influential
3.5 Altmetric
18.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!