2601.07182v3 Jan 12, 2026 cs.LG

PRPO: 정책 최적화에서 과정 보상과 결과 보상의 정렬

PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization

Xianhui Meng
Xianhui Meng
Citations: 11
h-index: 2
Chen Jiang
Chen Jiang
Shanghai Academy of Artificial Intelligence for Science,Ant Group,RWTH Aachen University, Zhejiang University
Citations: 245
h-index: 10
Ruiying Ding
Ruiying Ding
Citations: 18
h-index: 2
Yongxuan Lv
Yongxuan Lv
Citations: 21
h-index: 2
Jiahe Song
Jiahe Song
Citations: 137
h-index: 5
Chao Wang
Chao Wang
Citations: 3,343
h-index: 8
Yuan Cheng
Yuan Cheng
Citations: 20
h-index: 2

대규모 언어 모델을 위한 정책 최적화는 종종 다단계 추론 작업에서 희소한 보상 신호로 인해 어려움을 겪습니다. GRPO와 같은 비평가 기반 방법은 모든 토큰에 단일 정규화된 결과 보상을 할당하여 중간 추론에 대한 제한적인 지침을 제공합니다. 과정 보상 모델(PRM)은 밀집된 피드백을 제공하지만, 초기 낮은 보상을 받는 토큰이 정책을 단축된 출력으로 유도하여 자체적으로 사용할 경우 조기 수렴의 위험이 있습니다. 본 논문에서는 비평가 기반 프레임워크에서 결과 신뢰성과 과정 수준의 지침을 결합한 Process Relative Policy Optimization (PRPO)을 소개합니다. PRPO는 의미적 단서를 기반으로 추론 시퀀스를 분할하고, PRM 점수를 토큰 수준의 이점으로 정규화하며, 위치-파라미터 이동을 통해 해당 분포를 결과 이점과 정렬합니다. MATH500 데이터셋에서 PRPO는 GRPO보다 정확도를 61.2%에서 64.4%로 향상시켰으며, 이는 가치 네트워크 없이 단 8번의 실행만으로 달성된 결과입니다. 이는 비평가 기반 최적화 내에서 효율적인 미세 수준의 기여도 할당을 보여줍니다. 코드: https://github.com/SchumiDing/srpocode

Original Abstract

Policy optimization for large language models often suffers from sparse reward signals in multi-step reasoning tasks. Critic-free methods like GRPO assign a single normalized outcome reward to all tokens, providing limited guidance for intermediate reasoning . While Process Reward Models (PRMs) offer dense feedback, they risk premature collapse when used alone, as early low-reward tokens can drive policies toward truncated outputs. We introduce Process Relative Policy Optimization (PRPO), which combines outcome reliability with process-level guidance in a critic-free framework. PRPO segments reasoning sequences based on semantic clues, normalizes PRM scores into token-level advantages, and aligns their distribution with outcome advantages through location-parameter shift. On MATH500, PRPO improves Qwen2.5-Math-1.5B accuracy from 61.2% to 64.4% over GRPO using only eight rollouts and no value network, demonstrating efficient fine-grained credit assignment within critic-free optimization. Code is available at: https://github.com/SchumiDing/srpocode

9 Citations
0 Influential
25 Altmetric
134.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!