2604.09813v1 Apr 10, 2026 cs.AI

에이전트 기반 강화 학습을 위한 제어 가능하고 검증 가능한 도구 사용 데이터 합성

Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning

Zilong Wang
Zilong Wang
Citations: 160
h-index: 6
Zhan Shi
Zhan Shi
Citations: 22
h-index: 1
Siyuan Xu
Siyuan Xu
Citations: 49
h-index: 4
Shiyang Li
Shiyang Li
Citations: 79
h-index: 3
Yixiao Li
Yixiao Li
Citations: 247
h-index: 3
Zixuan Zhang
Zixuan Zhang
Citations: 50
h-index: 3
Qingyu Yin
Qingyu Yin
Citations: 120
h-index: 5
Jianshu Chen
Jianshu Chen
Citations: 4
h-index: 1
Bing Yin
Bing Yin
Citations: 105
h-index: 4
Xin Liu
Xin Liu
Citations: 12
h-index: 2
Tianyi Liu
Tianyi Liu
Citations: 30
h-index: 2
Tuo Zhao
Tuo Zhao
Citations: 92
h-index: 5

기존의 합성 도구 사용 데이터셋은 주로 오프라인 지도 학습(supervised fine-tuning)을 위해 설계되었지만, 강화 학습(reinforcement learning, RL)은 보상 검증이 가능한 온라인 환경을 요구합니다. 본 연구에서는 COVERT라는 2단계 파이프라인을 제안합니다. COVERT는 먼저 다단계 검증을 통해 자체적으로 발전하는 방식으로 신뢰할 수 있는 기본 도구 사용 경로를 생성하고, 그 다음에는 오라클(oracle)의 정보를 유지하면서 환경의 복잡성을 체계적으로 증가시키는 증강(augmentation) 기법을 적용합니다. 이러한 증강 기법은 주의를 분산시키는 도구, 간접적이거나 모호한 사용자 쿼리, 그리고 노이즈가 있거나 다양한 형식 또는 오류가 있는 도구 출력을 도입하지만, 도구 호출 및 최종 답변을 정확한 정답으로 엄격하게 유지합니다. 이러한 설계는 표준적인 경우에 참조 매칭을 통한 자동 보상 계산을 가능하게 하며, 오류 감지와 같은 특수한 동작에 대해 경량의 전문가 지원 검증을 지원하여 도구 호출 정책의 강화 학습 최적화를 가능하게 합니다. Qwen2.5-Instruct-14B 모델에서 COVERT-RL은 BFCL v3에서 전체 정확도를 56.5에서 59.9로, ACEBench에서 53.0에서 59.3으로 향상시켰으며, 일반 능력 벤치마크에서는 미미한 성능 저하만 발생했습니다. 지도 학습(SFT)과 결합하면 정확도가 62.1과 61.8까지 향상되어 추가적인 성능 향상을 확인할 수 있었습니다. 이러한 결과는 오라클 정보를 유지하는 합성 환경이 모호성 및 신뢰할 수 없는 도구 피드백 하에서 도구 사용의 견고성을 향상시키는 실용적인 강화 학습 개선 단계가 될 수 있으며, 지도 학습과 상호 보완적인 역할을 수행할 수 있음을 시사합니다.

Original Abstract

Existing synthetic tool-use corpora are primarily designed for offline supervised fine-tuning, yet reinforcement learning (RL) requires executable environments that support reward-checkable online rollouts. We propose COVERT, a two-stage pipeline that first generates reliable base tool-use trajectories through self-evolving synthesis with multi-level validation, and then applies oracle-preserving augmentations that systematically increase environmental complexity. These augmentations introduce distractor tools, indirect or ambiguous user queries, and noisy, multi-format, or erroneous tool outputs, while strictly preserving oracle tool calls and final answers as ground truth. This design enables automatic reward computation via reference matching for standard cases and lightweight judge-assisted verification for special behaviors such as error detection, supporting RL optimization of tool-calling policies. On Qwen2.5-Instruct-14B, COVERT-RL improves overall accuracy on BFCL v3 from 56.5 to 59.9 and on ACEBench from 53.0 to 59.3, with minimal regressions on general-ability benchmarks; when stacked on SFT, it further reaches 62.1 and 61.8, confirming additive gains. These results suggest that oracle-preserving synthetic environments offer a practical RL refinement stage, complementary to SFT, for improving tool-use robustness under ambiguity and unreliable tool feedback.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!