RC-GRPO: 멀티 턴 도구 호출 에이전트를 위한 보상 조건부 그룹 상대적 정책 최적화
RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents
거대 언어 모델(LLM)에게 멀티 턴 도구 호출은 보상이 희소하고 탐색 비용이 높기 때문에 어려운 과제입니다. 일반적인 방식인 SFT 후 GRPO를 적용하는 방법은 그룹 내 보상 변동성이 낮을 때(예: 그룹 내 대부분의 롤아웃이 모두 0 또는 모두 1의 보상을 받는 경우) 학습이 정체될 수 있으며, 이는 그룹 정규화된 이점(advantage)의 정보 가치를 떨어뜨리고 업데이트 소실을 초래합니다. 이 문제를 해결하기 위해, 우리는 탐색을 이산 보상 토큰을 통한 제어 가능한 조향(steering) 문제로 취급하는 RC-GRPO(보상 조건부 그룹 상대적 정책 최적화)를 제안합니다. 우리는 먼저 프롬프트에 보상 목표 특수 토큰(예: <|high_reward|>, <|low_reward|>)을 주입하여 혼합된 품질의 궤적에 대해 보상 조건부 궤적 정책(RCTP)을 미세 조정함으로써, 모델이 요구에 따라 서로 다른 품질의 궤적을 생성하는 방법을 학습하도록 합니다. 그 후 강화 학습 단계에서는 각 GRPO 그룹 내에서 다양한 보상 토큰을 샘플링하고, 샘플링된 토큰을 조건으로 롤아웃을 수행하여 그룹 내 다양성을 높이고 이점(advantage) 획득을 개선합니다. Berkeley Function Calling Leaderboard v4 (BFCLv4) 멀티 턴 벤치마크에서 제안하는 방법은 베이스라인보다 일관되게 향상된 성능을 보였으며, 특히 Qwen-2.5-7B-Instruct에서의 성능은 모든 폐쇄형 소스 API 모델들을 능가했습니다.
Multi-turn tool calling is challenging for Large Language Models (LLMs) because rewards are sparse and exploration is expensive. A common recipe, SFT followed by GRPO, can stall when within-group reward variation is low (e.g., more rollouts in a group receive the all 0 or all 1 reward), making the group-normalized advantage uninformative and yielding vanishing updates. To address this problem, we propose RC-GRPO (Reward-Conditioned Group Relative Policy Optimization), which treats exploration as a controllable steering problem via discrete reward tokens. We first fine-tune a Reward-Conditioned Trajectory Policy (RCTP) on mixed-quality trajectories with reward goal special tokens (e.g., <|high_reward|>, <|low_reward|>) injected into the prompts, enabling the model to learn how to generate distinct quality trajectories on demand. Then during RL, we sample diverse reward tokens within each GRPO group and condition rollouts on the sampled token to improve within-group diversity, improving advantage gains. On the Berkeley Function Calling Leaderboard v4 (BFCLv4) multi-turn benchmark, our method yields consistently improved performance than baselines, and the performance on Qwen-2.5-7B-Instruct even surpasses all closed-source API models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.