2603.01940v1 Mar 02, 2026 cs.AI

CoVe: 제약 조건 기반 검증을 통한 상호 작용 도구 사용 에이전트 학습

CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

Cheng Gong
Cheng Gong
Citations: 29
h-index: 2
Hanbo Li
Hanbo Li
Citations: 21
h-index: 2
Zichen Tian
Zichen Tian
Citations: 14
h-index: 2
Dandan Tu
Dandan Tu
Citations: 38
h-index: 3
Jinpeng Chen
Jinpeng Chen
Citations: 21
h-index: 3
Ziru Liu
Ziru Liu
Citations: 65
h-index: 4
Xinyu Fu
Xinyu Fu
Citations: 58
h-index: 4
Shili Wu
Shili Wu
Citations: 11
h-index: 2
Chenyang Zhang
Chenyang Zhang
Citations: 5
h-index: 2
Wupin Zhang
Wupin Zhang
Citations: 2
h-index: 1
Suiyun Zhang
Suiyun Zhang
Citations: 41
h-index: 3
Ruimeng Liu
Ruimeng Liu
Citations: 11
h-index: 2

실제 사용자 요구사항은 종종 복잡하고 모호하지만, 에이전트는 이를 만족시키기 위해 결정적인 동작을 수행해야 하므로, 다단계 상호 작용 도구 사용 에이전트 개발은 어려운 과제입니다. 이러한 격차를 해소하기 위해, 저희는 데이터 복잡성과 정확성을 모두 보장하는, 상호 작용 도구 사용 에이전트 학습을 위한 사후 학습 데이터 합성 프레임워크인 **CoVe** (**Co**nstraint- extbf{Ve}rification)를 소개합니다. CoVe는 먼저 명시적인 작업 제약 조건을 정의하며, 이는 복잡한 경로 생성 가이드 역할을 할 뿐만 아니라, 경로 품질을 평가하는 결정적인 검증기로도 작용합니다. 이를 통해, 지도 미세 조정(SFT)을 위한 고품질 학습 경로를 생성하고 강화 학습(RL)을 위한 정확한 보상 신호를 도출할 수 있습니다. 어려운 $τ^2$-bench 벤치마크에서의 평가 결과는 프레임워크의 효과를 입증합니다. 특히, 저희의 소형 **CoVe-4B** 모델은 Airline 및 Retail 도메인에서 각각 43.0% 및 59.4%의 성공률을 달성했으며, 이는 유사한 규모의 강력한 기준 모델보다 훨씬 뛰어난 성능이며, 최대 17배 더 큰 모델과도 경쟁력이 있습니다. 이러한 결과는 CoVe가 최첨단 상호 작용 도구 사용 에이전트를 위한 학습 데이터를 합성하는 효과적이고 효율적인 방법을 제공한다는 것을 시사합니다. 향후 연구를 지원하기 위해, 저희는 코드, 학습된 모델 및 학습에 사용된 12,000개의 고품질 경로 전체를 공개합니다.

Original Abstract

Developing multi-turn interactive tool-use agents is challenging because real-world user needs are often complex and ambiguous, yet agents must execute deterministic actions to satisfy them. To address this gap, we introduce \textbf{CoVe} (\textbf{Co}nstraint-\textbf{Ve}rification), a post-training data synthesis framework designed for training interactive tool-use agents while ensuring both data complexity and correctness. CoVe begins by defining explicit task constraints, which serve a dual role: they guide the generation of complex trajectories and act as deterministic verifiers for assessing trajectory quality. This enables the creation of high-quality training trajectories for supervised fine-tuning (SFT) and the derivation of accurate reward signals for reinforcement learning (RL). Our evaluation on the challenging $τ^2$-bench benchmark demonstrates the effectiveness of the framework. Notably, our compact \textbf{CoVe-4B} model achieves success rates of 43.0\% and 59.4\% in the Airline and Retail domains, respectively; its overall performance significantly outperforms strong baselines of similar scale and remains competitive with models up to $17\times$ its size. These results indicate that CoVe provides an effective and efficient pathway for synthesizing training data for state-of-the-art interactive tool-use agents. To support future research, we open-source our code, trained model, and the full set of 12K high-quality trajectories used for training.

2 Citations
1 Influential
2 Altmetric
14.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!