2601.15120v2 Jan 21, 2026 cs.AI

지면에서 벗어나기: 도구 사용 에이전트의 의도 편차 문제 해결 - 실제 호출을 가상 궤적으로 변환하여

Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories

Qian Xiong
Qian Xiong
Citations: 11
h-index: 2
Yuekai Huang
Yuekai Huang
Citations: 11
h-index: 2
Yujia Zheng
Yujia Zheng
Citations: 170
h-index: 9
Tianhao Li
Tianhao Li
Citations: 178
h-index: 9
Ziyou Jiang
Ziyou Jiang
Citations: 11
h-index: 2
Zhiyuan Chang
Zhiyuan Chang
Citations: 113
h-index: 5
Zhaoyang Li
Zhaoyang Li
Citations: 4
h-index: 1
Huanxiang Feng
Huanxiang Feng
Citations: 0
h-index: 0
Mingyang Li
Mingyang Li
Citations: 11
h-index: 2
Bo Yang
Bo Yang
Citations: 338
h-index: 7

LLM은 실제 응용 분야에서 도구 사용 에이전트를 발전시키는 데 기여했지만, 종종 예상치 못한 동작이나 결과를 초래합니다. 명백한 실패 외에도, “의도 편차”라는 미묘한 문제는 신뢰성 있는 평가와 성능 향상을 심각하게 저해합니다. 기존의 사후 훈련 방법은 일반적으로 실제 시스템 샘플 또는 LLM이 시뮬레이션한 가상 데이터를 활용합니다. 하지만, 전자는 수동으로 제작된 사용자 요청에 의존하기 때문에 비용이 많이 들고, 후자는 실제 환경의 도구와 분포가 달라 문제가 발생합니다. 또한, 두 방법 모두 의도 편차 시나리오에 맞춰진 부정적인 샘플이 부족하여, 선호도 학습에 효과적인 지침을 제공하지 못합니다. 본 논문에서는 의도 편차를 완화하기 위한 “실제-가상” 방법인 RISE를 소개합니다. RISE는 검증된 도구의 기본 기능을 기반으로 가상 궤적을 생성하고, 중요한 매개변수에 대한 변형을 통해 다양한 부정적인 샘플을 생성합니다. 생성된 합성 데이터를 사용하여, RISE는 두 단계의 훈련을 통해 기반 LLM을 의도에 맞게 미세 조정합니다. 평가 결과, RISE가 생성한 데이터는 사용자 요구 사항, 실행 궤적 및 에이전트 응답을 포괄하는 여덟 가지 지표에서 유망한 결과를 보여줍니다. 훈련과 결합하여, RISE는 평균적으로 Acctask (작업 완료율)에서 35.28% 향상, Accintent (의도 일치율)에서 23.27% 향상을 달성하여, SOTA (State-of-the-Art) 기준 성능을 각각 1.20%에서 42.09%, 1.17%에서 54.93% 능가했습니다.

Original Abstract

LLMs have advanced tool-using agents for real-world applications, yet they often lead to unexpected behaviors or results. Beyond obvious failures, the subtle issue of "intent deviation" severely hinders reliable evaluation and performance improvement. Existing post-training methods generally leverage either real system samples or virtual data simulated by LLMs. However, the former is costly due to reliance on hand-crafted user requests, while the latter suffers from distribution shift from the real tools in the wild. Additionally, both methods lack negative samples tailored to intent deviation scenarios, hindering effective guidance on preference learning. We introduce RISE, a "Real-to-Virtual" method designed to mitigate intent deviation. Anchoring on verified tool primitives, RISE synthesizes virtual trajectories and generates diverse negative samples through mutation on critical parameters. With synthetic data, RISE fine-tunes backbone LLMs via the two-stage training for intent alignment. Evaluation results demonstrate that data synthesized by RISE achieve promising results in eight metrics covering user requires, execution trajectories and agent responses. Integrating with training, RISE achieves an average 35.28% improvement in Acctask (task completion) and 23.27% in Accintent (intent alignment), outperforming SOTA baselines by 1.20--42.09% and 1.17--54.93% respectively.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!