2601.23032v1 Jan 30, 2026 cs.AI

궤적에 기반한 유도: 도구 통합 추론을 위한 도구 사용 궤적 수정 및 보상

Guided by Trajectories: Repairing and Rewarding Tool-Use Trajectories for Tool-Integrated Reasoning

Linan Yue
Linan Yue
Citations: 7
h-index: 2
Fangzhou Yao
Fangzhou Yao
Citations: 138
h-index: 7
Min-Ling Zhang
Min-Ling Zhang
Citations: 12
h-index: 2
Shimin Di
Shimin Di
Citations: 67
h-index: 4
Lei Feng
Lei Feng
Citations: 16
h-index: 2
Siyu Gong
Siyu Gong
Citations: 63
h-index: 5
Weibo Gao
Weibo Gao
University of Science and Technology of China
Citations: 687
h-index: 13

도구 통합 추론(TIR)은 대규모 언어 모델(LLM)이 외부 도구와 상호작용하여 복잡한 작업을 해결할 수 있게 해주지만, 기존 접근 방식은 점수 함수와 희소한 결과 기반 보상에 의해 선택된 고품질 합성 궤적에 의존하므로 TIR 학습에 제한적이고 편향된 감독만을 제공한다. 이러한 문제를 해결하기 위해, 본 논문에서는 도구 사용 궤적을 수정하고 보상함으로써 자동으로 TIR을 학습하는 2단계 프레임워크인 AutoTraj를 제안한다. 구체적으로 지도 미세 조정(SFT) 단계에서 AutoTraj는 각 쿼리에 대해 여러 후보 도구 사용 궤적을 생성하고 이를 다차원적으로 평가한다. 고품질 궤적은 그대로 유지되는 반면, 저품질 궤적은 LLM(즉, 수리자로서의 LLM)을 사용하여 수정된다. 결과적으로 수정된 궤적과 고품질 궤적은 합성 SFT 데이터셋을 형성하며, 수정된 각 궤적과 원본 저품질 궤적의 쌍은 궤적 선호도 모델링을 위한 데이터셋을 구성한다. 강화 학습(RL) 단계에서는 선호도 데이터셋을 기반으로 궤적 수준의 보상 모델을 훈련하여 추론 경로의 품질을 평가하고, 이를 결과 및 형식 보상과 결합함으로써 최적화 과정을 신뢰할 수 있는 TIR 행동으로 명시적으로 유도한다. 실제 벤치마크에 대한 실험들은 TIR에서 AutoTraj의 효과를 입증한다.

Original Abstract

Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to solve complex tasks by interacting with external tools, yet existing approaches depend on high-quality synthesized trajectories selected by scoring functions and sparse outcome-based rewards, providing limited and biased supervision for learning TIR. To address these challenges, in this paper, we propose AutoTraj, a two-stage framework that automatically learns TIR by repairing and rewarding tool-use trajectories. Specifically, in the supervised fine-tuning (SFT) stage, AutoTraj generates multiple candidate tool-use trajectories for each query and evaluates them along multiple dimensions. High-quality trajectories are directly retained, while low-quality ones are repaired using a LLM (i.e., LLM-as-Repairer). The resulting repaired and high-quality trajectories form a synthetic SFT dataset, while each repaired trajectory paired with its original low-quality counterpart constitutes a dataset for trajectory preference modeling. In the reinforcement learning (RL) stage, based on the preference dataset, we train a trajectory-level reward model to assess the quality of reasoning paths and combine it with outcome and format rewards, thereby explicitly guiding the optimization toward reliable TIR behaviors. Experiments on real-world benchmarks demonstrate the effectiveness of AutoTraj in TIR.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!