2602.01983v1 Feb 02, 2026 cs.AI

멀티모달 추론에서의 훈련 없는 경험 재사용을 통한 도구 사용자에서 창작자로의 진화

Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning

Xintian Shen
Xintian Shen
Citations: 4
h-index: 1
Jiawei Chen
Jiawei Chen
Citations: 11
h-index: 2
Lihao Zheng
Lihao Zheng
Citations: 4
h-index: 1
Hao Ma
Hao Ma
Citations: 4
h-index: 1
Tao Wei
Tao Wei
Citations: 4
h-index: 1
Kun Zhan
Kun Zhan
Citations: 10
h-index: 1

기존의 도구 통합 추론(TIR) 모델은 외부 도구를 결합하여 거대언어모델(LLM)의 질의응답 능력을 효과적으로 확장해 왔습니다. 그러나 실제 환경에서는 고정된 도구만으로는 작업 요구 사항을 충족할 수 없는 수많은 개방형 문제들이 존재합니다. 또한, 자기 최적화 메커니즘의 부재로 인해 잘못된 도구 출력이 LLM의 응답을 오도할 수 있으며, 기존 도구 구축에 상당한 수작업이 소요되어 그 적용 가능성이 제한된다는 문제가 있습니다. LLM의 추론 궤적(reasoning traces)에 암묵적인 문제 해결 능력이 내재되어 있음을 인식하여, 본 논문에서는 에이전트를 도구 사용자에서 도구 창작자로 전환하는 새로운 비훈련(training-free) 프레임워크인 UCT를 제안합니다. 이 접근 방식은 추론 경험을 수집하고 이를 재사용 가능한 자산으로 정제합니다. 이를 통해 에이전트는 단순한 도구 사용자를 넘어 도구 창작자로 변모하며, 추론 과정에서 적응형 도구 생성 및 자체 업데이트가 가능해집니다. 또한, 도구 라이브러리를 유지 관리하는 메모리 통합 메커니즘을 도입하여, 축적된 경험적 메모리가 후속 추론 작업에서 높은 재사용성을 갖도록 보장합니다. 이러한 새로운 자동화된 도구 구축 패러다임은 추론 과정에서 도구의 품질을 지속적으로 개선하여, 추가적인 훈련 없이도 전체 에이전트 시스템이 발전할 수 있게 합니다. 광범위한 실험을 통해 본 방법이 TIR 모델의 성능을 향상시키는 새로운 패러다임임을 입증했습니다. 특히, 다중 도메인 수학 및 과학 추론 작업 벤치마크에서 각각 +20.86% 및 +23.04%의 상당한 성능 향상을 달성하여 에이전트의 자기 진화 능력을 검증했습니다.

Original Abstract

Existing Tool-Integrated Reasoning (TIR) models have effectively extended the question-answering capabilities of LLMs by incorporating external tools. However, real-world scenarios present numerous open-ended problems where fixed tools often fail to meet task requirements. Furthermore, the lack of self-optimization mechanisms means that erroneous tool outputs can mislead the LLM's responses. Additionally, the construction of existing tools entails significant manual effort, which consequently constrains their applicability. Recognizing that the reasoning traces of LLMs encapsulate implicit problem-solving capabilities, we propose UCT, a novel training-free framework that transforms agents from tool users to tool creators. This approach harvests reasoning experiences and distills them into reusable assets. This method transforms the agent from a mere tool user into a tool creator, enabling adaptive tool creation and self-updating during the inference process. We also introduce a memory consolidation mechanism to maintain the tool library, ensuring high reusability of retained experiential memory for subsequent reasoning tasks. This novel automated tool construction paradigm continuously improves tool quality during reasoning, allowing the overall agent system to progress without additional training. Extensive experiments demonstrate that our method serves as a novel paradigm for enhancing the capabilities of TIR models. In particular, the significant performance gains achieved +20.86%$\uparrow$ and +23.04%$\uparrow$ on benchmarks across multi-domain mathematical and scientific reasoning tasks validate the self-evolving capability of the agent.

2 Citations
0 Influential
1 Altmetric
7.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!