R$^2$PO: LLM 추론을 위한 학습 경로와 추론 응답 분리
R$^2$PO: Decoupling Training Trajectories from Inference Responses for LLM Reasoning
강화 학습은 LLM의 추론 능력을 향상시키는 핵심적인 패러다임으로 자리 잡았습니다. 그러나 기존 방법은 하나의 정책을 사용하여 추론 응답과 학습 최적화 경로를 모두 생성합니다. 안정적인 추론 응답을 생성하는 것과 다양한 학습 경로를 생성하는 것 사이의 목표 충돌은 충분한 탐색을 방해하여 추론 능력을 저하시킵니다. 본 논문에서는 이러한 문제를 해결하기 위해 학습 경로와 추론 응답을 분리하여 학습 중 제어 가능한 경로 다양성을 확보하고 추론 응답 생성을 안정적으로 유지하는 R$^2$PO (Residual Rollout Policy Optimization)를 제안합니다. 다양한 벤치마크에서의 실험 결과, 제안하는 방법은 기존 방법보다 일관되게 우수한 성능을 보이며, MATH-500 데이터셋에서 평균 3.4%, APPS 데이터셋에서 평균 1.3%의 정확도 향상을 달성했습니다. 또한, 서식 오류를 줄이고 길이 편향을 완화하여 안정적인 최적화를 가능하게 합니다. 저희의 코드는 https://github.com/RRPO-ARR/Code 에서 공개적으로 이용할 수 있습니다.
Reinforcement learning has become a central paradigm for improving LLM reasoning. However, existing methods use a single policy to produce both inference responses and training optimization trajectories. The objective conflict between generating stable inference responses and diverse training trajectories leads to insufficient exploration, which harms reasoning capability. In this paper, to address the problem, we propose R$^2$PO (Residual Rollout Policy Optimization), which introduces a lightweight Residual Rollout-Head atop the policy to decouple training trajectories from inference responses, enabling controlled trajectory diversification during training while keeping inference generation stable. Experiments across multiple benchmarks show that our method consistently outperforms baselines, achieving average accuracy gains of 3.4% on MATH-500 and 1.3% on APPS, while also reducing formatting errors and mitigating length bias for stable optimization. Our code is publicly available at https://github.com/RRPO-ARR/Code.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.