GDPO: 그룹 보상 분리 정규화 정책 최적화 기법을 활용한 다중 보상 강화 학습 최적화
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
언어 모델이 점점 더 발전함에 따라, 사용자들은 모델이 정확한 답변뿐만 아니라 다양한 시나리오에서 인간의 다양한 선호도에 부합하는 행동을 제공하기를 기대합니다. 이를 달성하기 위해, 강화 학습(RL) 파이프라인은 다양한 선호도를 반영하는 여러 개의 보상을 통합하여 모델이 원하는 행동을 하도록 유도하는 경향이 있습니다. 그러나 최근 연구에서는 다중 보상 환경에서 그룹 상대 정책 최적화(GRPO)를 적용하는 것이 적절한지 검토하지 않고 그대로 적용하는 경우가 많습니다. 본 논문에서는 GRPO를 직접적으로 적용하면, 서로 다른 실행 결과에서 얻은 보상 조합이 동일한 이점 값으로 수렴하게 되어 학습 신호의 해상도가 감소하고, 최적의 수렴을 달성하지 못하며, 경우에 따라서는 초기 학습 실패를 초래한다는 것을 보여줍니다. 따라서, 우리는 그룹 보상 분리 정규화 정책 최적화(GDPO)라는 새로운 정책 최적화 방법을 제안합니다. GDPO는 개별 보상의 정규화를 분리하여 각 보상의 상대적인 차이를 보다 정확하게 유지하고, 보다 정확한 다중 보상 최적화를 가능하게 하며, 학습 안정성을 크게 향상시킵니다. 우리는 GDPO를 GRPO와 비교하여 툴 호출, 수학적 추론, 코딩 추론이라는 세 가지 작업에서 성능을 평가했습니다. 평가 지표는 정확도, 오류 비율과 같은 정확성 지표와 형식, 길이와 같은 제약 조건 준수 지표를 모두 포함합니다. 모든 설정에서 GDPO는 GRPO보다 일관되게 우수한 성능을 보였으며, 이는 다중 보상 강화 학습 최적화에서 GDPO의 효과와 일반화 가능성을 입증합니다.
As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcement learning (RL) pipelines have begun incorporating multiple rewards, each capturing a distinct preference, to guide models toward these desired behaviors. However, recent work has defaulted to apply Group Relative Policy Optimization (GRPO) under multi-reward setting without examining its suitability. In this paper, we demonstrate that directly applying GRPO to normalize distinct rollout reward combinations causes them to collapse into identical advantage values, reducing the resolution of the training signal and resulting in suboptimal convergence and, in some cases, early training failure. We then introduce Group reward-Decoupled Normalization Policy Optimization (GDPO), a new policy optimization method to resolve these issues by decoupling the normalization of individual rewards, more faithfully preserving their relative differences and enabling more accurate multi-reward optimization, along with substantially improved training stability. We compare GDPO with GRPO across three tasks: tool calling, math reasoning, and coding reasoning, evaluating both correctness metrics (accuracy, bug ratio) and constraint adherence metrics (format, length). Across all settings, GDPO consistently outperforms GRPO, demonstrating its effectiveness and generalizability for multi-reward reinforcement learning optimization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.