할인된 베타-베르누이 보상 추정: 검증 가능한 보상을 활용한 샘플 효율적인 강화 학습
Discounted Beta--Bernoulli Reward Estimation for Sample-Efficient Reinforcement Learning with Verifiable Rewards
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키는 효과적인 후처리 패러다임으로 부상했습니다. 그러나 기존의 그룹 기반 RLVR 방법은 종종 심각한 샘플 비효율성을 겪습니다. 이러한 비효율성은 소수의 실행(rollout)으로부터 보상을 점 추정하는 데 의존하며, 이는 높은 추정 분산, 분산 붕괴 및 생성된 응답의 비효율적인 활용으로 이어집니다. 본 연구에서는 보상을 정책에 의해 유도된 분포에서 추출된 샘플로 모델링하고, 장점 계산을 유한한 데이터로부터 보상 분포를 추정하는 문제로 재구성하여 RLVR을 통계적 추정 관점에서 재구성합니다. 이러한 관점을 바탕으로, 본 연구에서는 과거 보상 통계를 활용하는 할인된 베타-베르누이(DBB) 보상 추정 방법을 제안합니다. 제안된 추정기는 편향되어 있지만, 감소되고 안정적인 분산을 나타내며, 이론적으로 추정된 분산 붕괴를 방지하고, 표준 점 추정보다 낮은 평균 제곱 오차를 달성합니다. 1.7B 및 8B 모델에서 6개의 동일 분포 추론 벤치마크와 3개의 이질 분포 추론 벤치마크에 대한 광범위한 실험 결과, DBB를 사용한 GRPO는 기존 GRPO보다 일관되게 우수한 성능을 보이며, 동일 분포에서 평균 Acc@8 성능이 각각 3.22/2.42 포인트 향상되고, 이질 분포에서 평균 Acc@8 성능이 각각 12.49/6.92 포인트 향상되었습니다. 이러한 성능 향상은 추가적인 계산 비용이나 메모리 사용량 없이 달성되었습니다.
Reinforcement learning with verifiable rewards (RLVR) has emerged as an effective post-training paradigm for improving the reasoning capabilities of large language models. However, existing group-based RLVR methods often suffer from severe sample inefficiency. This inefficiency stems from reliance on point estimation of rewards from a small number of rollouts, leading to high estimation variance, variance collapse, and ineffective utilization of generated responses. In this work, we reformulate RLVR from a statistical estimation perspective by modeling rewards as samples drawn from a policy-induced distribution and casting advantage computation as the problem of estimating the reward distribution from finite data. Building on this view, we propose Discounted Beta--Bernoulli (DBB) reward estimation, which leverages historical reward statistics for the non-stationary distribution. Although biased, the resulting estimator exhibits reduced and stable variance, theoretically avoids estimated variance collapse, and achieves lower mean squared error than standard point estimation. Extensive experiments across six in-distribution and three out-of-distribution reasoning benchmarks demonstrate that GRPO with DBB consistently outperforms naive GRPO, achieving average Acc@8 improvements of 3.22/2.42 points in-distribution and 12.49/6.92 points out-of-distribution on the 1.7B and 8B models, respectively, without additional computational cost or memory usage.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.