2601.22607v3 Jan 30, 2026 cs.AI

자기 진화하는 합성 데이터를 활용한 검증 가능한 보상 강화 학습: 학습 후 다중 턴 상호 작용 도구 사용 에이전트

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Hanrui Wang
Hanrui Wang
Citations: 15
h-index: 3
Di Jin
Di Jin
Citations: 5
h-index: 1
Chuyi He
Chuyi He
Citations: 278
h-index: 3
Jiaxuan Gao
Jiaxuan Gao
Citations: 838
h-index: 9
Yi Wu
Yi Wu
Citations: 642
h-index: 8
Shusheng Xu
Shusheng Xu
IIIS, Tsinghua University
Citations: 764
h-index: 9
Jiaao Chen
Jiaao Chen
Citations: 717
h-index: 15
Wei-Chen Wang
Wei-Chen Wang
Citations: 168
h-index: 2

상호 작용 도구를 사용하는 에이전트는 인간 및 외부 환경과의 다중 턴 상호 작용을 통해 실제 문제를 해결해야 하며, 이를 위해 대화 상태 추적, 다단계 도구 실행, 그리고 복잡한 지시사항 준수가 필요합니다. 이러한 에이전트의 학습은 고품질의 다중 턴 도구 사용 데이터를 생성하는 것이 어렵고, 사용자 시뮬레이션으로 인한 노이즈로 인해 강화 학습(RL)의 효율성이 저하될 수 있기 때문에 어렵습니다. 본 논문에서는 자기 진화 데이터 에이전트와 검증 기반 강화 학습을 결합한 통합 프레임워크를 제안합니다. 제안하는 시스템인 EigenData는 도구 기반 대화를 생성하고, 각 인스턴스에 대한 실행 가능한 검사기를 포함하며, 프롬프트와 워크플로우를 업데이트하는 폐루프 자기 진화 프로세스를 통해 생성의 신뢰성을 향상시키는 계층적 다중 에이전트 엔진입니다. 생성된 합성 데이터를 기반으로, 사용자 모델을 먼저 미세 조정하고, 이어서 경로 수준 그룹 상대적 이점과 동적 필터링을 사용하는 GRPO 스타일의 학습을 적용하여 SFT(Supervised Fine-Tuning)보다 더 나은 성능 향상을 얻습니다. tau^2-bench에서 평가한 결과, 최상의 모델은 Airline 데이터셋에서 73.0%의 pass^1 정확도를, Telecom 데이터셋에서 98.3%의 pass^1 정확도를 달성하여 최첨단 모델과 동등하거나 그 이상의 성능을 보였습니다. 종합적으로, 본 연구 결과는 값비싼 인간 주석 없이 복잡한 도구 사용 행동을 학습할 수 있는 확장 가능한 방법을 제시합니다.

Original Abstract

Interactive tool-using agents must solve real-world tasks via multi-turn interaction with both humans and external environments, requiring dialogue state tracking, multi-step tool execution, while following complex instructions. Post-training such agents is challenging because synthesis for high-quality multi-turn tool-use data is difficult to scale, and reinforcement learning (RL) could face noisy signals caused by user simulation, leading to degraded training efficiency. We propose a unified framework that combines a self-evolving data agent with verifier-based RL. Our system, EigenData, is a hierarchical multi-agent engine that synthesizes tool-grounded dialogues together with executable per-instance checkers, and improves generation reliability via closed-loop self-evolving process that updates prompts and workflow. Building on the synthetic data, we develop an RL recipe that first fine-tunes the user model and then applies GRPO-style training with trajectory-level group-relative advantages and dynamic filtering, yielding consistent improvements beyond SFT. Evaluated on tau^2-bench, our best model reaches 73.0% pass^1 on Airline and 98.3% pass^1 on Telecom, matching or exceeding frontier models. Overall, our results suggest a scalable pathway for bootstrapping complex tool-using behaviors without expensive human annotation.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!