2601.18631v1 Jan 26, 2026 cs.AI

AdaReasoner: 반복적 시각 추론을 위한 동적 도구 조율

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Mingyang Song
Mingyang Song
Citations: 248
h-index: 5
Haoyu Sun
Haoyu Sun
Citations: 23
h-index: 2
Jiawei Gu
Jiawei Gu
National University of Singapore
Citations: 1,835
h-index: 9
Linjie Li
Linjie Li
Citations: 221
h-index: 5
Ranjay Krishna
Ranjay Krishna
Citations: 896
h-index: 10
Yu Cheng
Yu Cheng
Citations: 499
h-index: 6
Luxin Xu
Luxin Xu
Citations: 27
h-index: 3

인간은 즉각적인 능력 범위를 벗어나는 문제에 직면했을 때 도구에 의존하며, 이는 멀티모달 대형 언어 모델(MLLM)의 시각적 추론 능력을 향상시키는 유망한 패러다임을 제공합니다. 따라서 효과적인 추론은 새로운 도구나 새로운 작업에 직면했을 때에도 어떤 도구를 사용할지, 언제 호출할지, 그리고 여러 단계에 걸쳐 어떻게 구성할지를 아는 데 달려 있습니다. 우리는 도구 사용을 특정 도구에 국한되거나 명시적으로 지도된 행동이 아닌, 일반적인 추론 기술로 학습하는 멀티모달 모델 제품군인 AdaReasoner를 소개합니다. AdaReasoner는 (i) 모델을 장기적이고 다단계의 도구 상호 작용에 노출시키는 확장 가능한 데이터 큐레이션 파이프라인, (ii) 최종 작업 성공 여부에 따라 도구 선택 및 순서를 최적화하는 강화 학습 알고리즘인 Tool-GRPO, (iii) 도구 사용을 동적으로 조절하는 적응형 학습 메커니즘을 통해 구현됩니다. 이러한 구성 요소들이 결합되어 모델이 작업 맥락과 중간 결과로부터 도구의 유용성을 추론할 수 있게 하며, 다중 도구의 조정 및 본 적 없는 도구에 대한 일반화를 가능하게 합니다. 실증적으로 AdaReasoner는 강력한 도구 적응 및 일반화 행동을 보여줍니다. 명시적으로 훈련받지 않았음에도 불구하고 유익한 도구를 자율적으로 채택하고, 관련 없는 도구는 억제하며, 작업 요구 사항에 따라 도구 사용 빈도를 조정합니다. 이러한 능력은 까다로운 벤치마크 전반에서 최고 수준의 성능으로 이어져, 7B 기본 모델의 성능을 평균 24.9% 향상시켰으며 VSP와 Jigsaw를 포함한 여러 작업에서 GPT-5와 같은 강력한 독점 시스템을 능가했습니다.

Original Abstract

When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce \textbf{AdaReasoner}, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.

5 Citations
0 Influential
5 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!