조건부 기댓값 보상을 이용한 강화 학습
Reinforcement Learning with Conditional Expectation Reward
검증 가능한 보상을 이용한 강화 학습(RLVR)은 특히 수학과 같이 규칙 기반 검증기가 구축 가능한 분야에서 대규모 언어 모델의 추론 능력을 향상시키는 데 효과적임이 입증되었습니다. 그러나 RLVR은 수동으로 제작된, 도메인 특화된 검증 규칙에 크게 의존하기 때문에, 유효한 답변이 상당한 변동성을 보이는 일반적인 추론 분야에 적용하기 어렵습니다. 이러한 한계를 해결하기 위해, 본 논문에서는 대규모 언어 모델 자체를 암시적 검증기로 활용하는 '조건부 기댓값 보상(CER)'을 제안합니다. CER은 외부 검증기나 보조 모델의 필요성을 없애고, 따라서 일반적인 도메인에 적용 가능합니다. CER은 생성된 답변에 조건부로 참조 답변을 생성할 확률의 기댓값으로 정의됩니다. 규칙 기반 검증기가 이진 피드백을 제공하는 반면, CER은 다양한 정확도 수준을 반영하는 부드러운, 단계별 보상 신호를 제공하여, 답변의 정확도가 다양한 작업에 더 적합합니다. 실험 결과는 CER이 수학 및 일반 도메인을 포함한 다양한 추론 작업에서 효과적임을 보여주며, 이는 CER이 유연하고 일반적인 검증 메커니즘으로 기능함을 시사합니다. 코드: https://github.com/changyi7231/CER
Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective in enhancing the reasoning capabilities of large language models, particularly in domains such as mathematics where reliable rule-based verifiers can be constructed. However, the reliance on handcrafted, domain-specific verification rules substantially limits the applicability of RLVR to general reasoning domains with free-form answers, where valid answers often exhibit significant variability, making it difficult to establish complete and accurate rules. To address this limitation, we propose Conditional Expectation Reward (CER), which leverages the large language model itself as an implicit verifier, and is therefore applicable to general domains and eliminates the need for external verifiers or auxiliary models. CER is defined as the expected likelihood of generating the reference answer conditioned on the generated answer. In contrast to rule-based verifiers that yield binary feedback, CER provides a soft, graded reward signal that reflects varying degrees of correctness, making it better suited to tasks where answers vary in correctness. Experimental results demonstrate that CER is effective across a wide range of reasoning tasks, spanning both mathematical and general domains, indicating that CER serves as a flexible and general verification mechanism. The code is available at https://github.com/changyi7231/CER.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.