2602.01601v2 Feb 02, 2026 cs.LG

검증 가능한 보상을 갖는 온라인 강화 학습을 위한 적응적 배포 할당

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Yuzhi Zhao
Yuzhi Zhao
Citations: 95
h-index: 6
Hieu Trung Nguyen
Hieu Trung Nguyen
Citations: 65
h-index: 4
Bao Nguyen
Bao Nguyen
Citations: 38
h-index: 4
Wenao Ma
Wenao Ma
Citations: 22
h-index: 3
Ruifeng She
Ruifeng She
Citations: 60
h-index: 5
V. Nguyen
V. Nguyen
Citations: 161
h-index: 8

검증 가능한 보상을 갖는 강화 학습에서 샘플링 효율성은 중요한 병목 현상입니다. GRPO와 같은 기존의 그룹 기반 정책 최적화 방법은 모든 학습 프롬프트에 대해 고정된 수의 배포를 할당합니다. 이러한 균일한 할당은 모든 프롬프트를 동일한 정보량으로 취급하며, 이는 계산 자원의 비효율적인 사용으로 이어져 학습 진행을 저해할 수 있습니다. 본 논문에서는 정책 업데이트의 예상 기울기 분산을 최소화하기 위해 주어진 배포 예산을 현재 배치 내의 프롬프트에 할당하는, 분산 정보를 활용한 예측 할당 전략인 VIP를 소개합니다. VIP는 각 반복마다 경량 가우시안 프로세스 모델을 사용하여 최근 배포 결과를 기반으로 프롬프트별 성공 확률을 예측합니다. 이러한 확률 예측은 분산 추정치로 변환되며, 이는 주어진 계산 예산 제약 조건 하에서 최적의 배포 할당을 결정하기 위한 볼록 최적화 문제에 입력됩니다. 실험 결과, VIP는 일관되게 샘플링 효율성을 향상시키고, 여러 벤치마크에서 균일하거나 휴리스틱 기반 할당 전략보다 더 높은 성능을 달성함을 보여줍니다.

Original Abstract

Sampling efficiency is a key bottleneck in reinforcement learning with verifiable rewards. Existing group-based policy optimization methods, such as GRPO, allocate a fixed number of rollouts for all training prompts. This uniform allocation implicitly treats all prompts as equally informative, and could lead to inefficient computational budget usage and impede training progress. We introduce VIP, a Variance-Informed Predictive allocation strategy that allocates a given rollout budget to the prompts in the incumbent batch to minimize the expected gradient variance of the policy update. At each iteration, VIP uses a lightweight Gaussian process model to predict per-prompt success probabilities based on recent rollouts. These probability predictions are translated into variance estimates, which are then fed into a convex optimization problem to determine the optimal rollout allocations under a hard compute budget constraint. Empirical results show that VIP consistently improves sampling efficiency and achieves higher performance than uniform or heuristic allocation strategies in multiple benchmarks.

7 Citations
2 Influential
4 Altmetric
31.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!