VeRPO: 검증 가능한 밀집 보상 정책 최적화를 통한 코드 생성
VeRPO: Verifiable Dense Reward Policy Optimization for Code Generation
코드 생성 분야의 강화 학습(RL)에서 효과적인 보상 설계는 핵심적인 과제입니다. 기존의 합격/불합격 결과 보상은 단위 테스트 실행을 통해 기능적 정확성을 강제하지만, 이로 인해 발생하는 희소성은 잠재적인 성능 향상을 제한합니다. 최근 연구에서는 외부 보상 모델(RM)을 활용하여 더욱 풍부하고 연속적인 보상을 생성하는 시도가 있었지만, 학습된 RM은 보상 불일치 문제와 과도한 계산 비용을 야기합니다. 본 논문에서는 **VeRPO (V**erifiable **D**ense **R**eward **P**olicy **O**ptimization)**라는 새로운 RL 프레임워크를 제안합니다. VeRPO는 코드 생성에 특화되어 있으며, *견고하고 밀집된 보상을 제공하며, 이는 검증 가능한 실행 피드백을 기반으로 완전히 구축*됩니다. VeRPO의 핵심 아이디어는 가중치를 적용한 부분 성공으로부터 밀집된 보상을 구성하는 것입니다. 훈련 과정에서 각 단위 테스트의 난이도 가중치를 동적으로 추정하여, 통과된 단위 테스트의 가중치 합계를 통해 밀집된 보상을 얻습니다. VeRPO는 부분 성공과 전체적인 기능적 정확성 간의 일관성을 강화하기 위해, 밀집된 신호를 전체 실행 결과와 통합하여 검증 가능한 실행 피드백만을 기반으로 하는 견고하고 밀집된 보상 체계를 구축합니다. 다양한 벤치마크 및 환경에서의 광범위한 실험 결과, VeRPO는 기존의 결과 기반 방법 및 RM 기반 방법보다 일관되게 우수한 성능을 보이며, pass@1의 성능을 최대 +8.83% 향상시키고, 동시에 무시할 만한 시간 비용(< 0.02%)과 GPU 메모리 오버헤드를 발생시키지 않습니다.
Effective reward design is a central challenge in Reinforcement Learning (RL) for code generation. Mainstream pass/fail outcome rewards enforce functional correctness via executing unit tests, but the resulting sparsity limits potential performance gains. While recent work has explored external Reward Models (RM) to generate richer, continuous rewards, the learned RMs suffer from reward misalignment and prohibitive computational cost. In this paper, we introduce \textbf{VeRPO} (\textbf{V}erifiable D\textbf{e}nse \textbf{R}eward \textbf{P}olicy \textbf{O}ptimization), a novel RL framework for code generation that synthesizes \textit{robust and dense rewards fully grounded in verifiable execution feedback}. The core idea of VeRPO is constructing dense rewards from weighted partial success: by dynamically estimating the difficulty weight of each unit test based on the execution statistics during training, a dense reward is derived from the sum of weights of the passed unit tests. To solidify the consistency between partial success and end-to-end functional correctness, VeRPO further integrates the dense signal with global execution outcomes, establishing a robust and dense reward paradigm relying solely on verifiable execution feedback. Extensive experiments across diverse benchmarks and settings demonstrate that VeRPO consistently outperforms outcome-driven and RM-based baselines, achieving up to +8.83\% gain in pass@1 with negligible time cost (< 0.02\%) and zero GPU memory overhead.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.