2601.12762v1 Jan 19, 2026 cs.SE

환경 상호 작용을 통한 LLM의 도구 사용 학습 및 실행 방법

Teaching LLMs to Learn Tool Trialing and Execution through Environment Interaction

Yukun Yan
Yukun Yan
Citations: 588
h-index: 11
Shuo Wang
Shuo Wang
Citations: 890
h-index: 11
Zhenghao Liu
Zhenghao Liu
Citations: 165
h-index: 8
Chen Qian
Chen Qian
Citations: 31
h-index: 3
Pengcheng Huang
Pengcheng Huang
Citations: 49
h-index: 4
Yu Gu
Yu Gu
Citations: 157
h-index: 7
Ge Yu
Ge Yu
Citations: 329
h-index: 10
Xin Gao
Xin Gao
Citations: 74
h-index: 5
Zulong Chen
Zulong Chen
Citations: 11
h-index: 1

대규모 언어 모델(LLM)에 외부 도구를 탑재하면 복잡한 실제 문제를 해결할 수 있습니다. 그러나 기존 방법의 안정성은 새로운 또는 진화하는 도구를 마주할 때 중요한 과제로 남아 있습니다. 기존의 경로 중심 패러다임은 주로 훈련 중에 정적인 해결 경로를 암기하는 데 의존하며, 이는 LLM이 새롭게 도입되거나 이전에 보지 못한 도구에 대한 도구 사용을 일반화하는 능력을 제한합니다. 본 논문에서는 환경과의 상호 작용을 통해 도구 사용을 능동적으로 학습하는 프레임워크인 ToolMaster를 제안합니다. ToolMaster는 LLM을 도구 계획 및 호출에 최적화하기 위해, 명시적인 도구 시도와 자체 수정이 포함된 교사 생성 경로를 모방하는 것부터 시작하여, 강화 학습을 통해 시도 및 실행 단계를 공동으로 조정하는 시도 및 실행 패러다임을 채택합니다. 이 프로세스를 통해 에이전트는 환경과 적극적으로 상호 작용하면서 올바른 도구 사용법을 자율적으로 탐색하고, 도구 실행에 도움이 되는 경험적 지식을 형성합니다. 실험 결과는 ToolMaster가 기존의 기본 모델보다 일반화 및 안정성 측면에서 눈에 띄게 우수함을 보여줍니다. 모든 코드 및 데이터는 https://github.com/NEUIR/ToolMaster에서 확인할 수 있습니다.

Original Abstract

Equipping Large Language Models (LLMs) with external tools enables them to solve complex real-world problems. However, the robustness of existing methods remains a critical challenge when confronting novel or evolving tools. Existing trajectory-centric paradigms primarily rely on memorizing static solution paths during training, which limits the ability of LLMs to generalize tool usage to newly introduced or previously unseen tools. In this paper, we propose ToolMaster, a framework that shifts tool use from imitating golden tool-calling trajectories to actively learning tool usage through interaction with the environment. To optimize LLMs for tool planning and invocation, ToolMaster adopts a trial-and-execution paradigm, which trains LLMs to first imitate teacher-generated trajectories containing explicit tool trials and self-correction, followed by reinforcement learning to coordinate the trial and execution phases jointly. This process enables agents to autonomously explore correct tool usage by actively interacting with environments and forming experiential knowledge that benefits tool execution. Experimental results demonstrate that ToolMaster significantly outperforms existing baselines in terms of generalization and robustness across unseen or unfamiliar tools. All code and data are available at https://github.com/NEUIR/ToolMaster.

0 Citations
0 Influential
35.229550745277 Altmetric
176.1 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!