2604.08545v1 Apr 09, 2026 cs.CV

현명하게 행동하라: 능동적인 다중 모드 모델에서 메타인지 도구 사용 능력을 함양하다

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Ruixuan Li
Ruixuan Li
Citations: 413
h-index: 12
Yixiong Zou
Yixiong Zou
Citations: 285
h-index: 9
Jintao Tong
Jintao Tong
Citations: 61
h-index: 5
Hongwei Xue
Hongwei Xue
Citations: 850
h-index: 10
Yang Wang
Yang Wang
Citations: 65
h-index: 4
Kunyu Shi
Kunyu Shi
Citations: 6
h-index: 1
Shilin Yan
Shilin Yan
Citations: 31
h-index: 2
Xiaojun Tang
Xiaojun Tang
Citations: 0
h-index: 0
Guannan Zhang
Guannan Zhang
Citations: 6
h-index: 1

능동적인 다중 모드 모델의 등장은 시스템이 외부 환경과 적극적으로 상호 작용할 수 있도록 만들었습니다. 그러나 현재의 에이전트는 심각한 메타인지 결핍을 겪고 있습니다. 즉, 내부 지식을 활용하는 것과 외부 유틸리티를 사용하는 것 사이에서 균형을 맞추는 데 어려움을 겪습니다. 그 결과, 에이전트는 종종 맹목적인 도구 사용에 의존하며, 시각 정보만으로도 해결 가능한 문제를 도구를 사용하여 해결하는 경향이 있습니다. 이러한 부작용은 심각한 지연 문제를 야기하고, 정확한 추론을 방해하는 불필요한 노이즈를 발생시킵니다. 기존 강화 학습 프로토콜은 도구 사용을 억제하는 스칼라화된 보상을 사용하여 이러한 문제를 완화하려고 시도합니다. 그러나 이러한 결합된 방식은 해결할 수 없는 최적화 문제를 야기합니다. 과도한 페널티는 필수적인 도구 사용을 억제하는 반면, 약한 페널티는 장점 정규화 과정에서 정확도 보상의 변동에 의해 완전히 무효화되어 도구 과다 사용에 효과적으로 대처하지 못합니다. 이러한 병목 현상을 해결하기 위해, 우리는 도구 효율성을 경쟁적인 스칼라 목표가 아닌 엄격하게 조건적인 목표로 재정의하는 프레임워크인 HDPO를 제안합니다. HDPO는 보상 스칼라화를 배제함으로써, 정확도를 극대화하는 채널과 정확한 경로 내에서만 실행 경제를 강제하는 효율성 채널, 즉 두 개의 독립적인 최적화 채널을 유지합니다. 이러한 분리된 아키텍처는 에이전트가 먼저 문제 해결 능력을 숙달한 후에 자기 의존성을 향상하도록 유도하는 인지 교육 과정을 자연스럽게 구현합니다. 광범위한 실험 결과, 우리의 모델인 Metis는 도구 호출 횟수를 크게 줄이는 동시에 추론 정확도를 향상시키는 것으로 나타났습니다.

Original Abstract

The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!