2604.03016v1 Apr 03, 2026 cs.AI

Agentic-MME: 에이전트 능력이 다중 모드 지능에 실제로 어떤 기여를 하는가?

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Qianshan Wei
Qianshan Wei
Citations: 19
h-index: 2
Qi Li
Qi Li
Citations: 45
h-index: 4
Yinfeng Yu
Yinfeng Yu
Xinjiang University
Citations: 237
h-index: 10
Yi-Shuai Yang
Yi-Shuai Yang
Citations: 0
h-index: 0
Siyi Wang
Siyi Wang
Citations: 11
h-index: 2
Jinglin Chen
Jinglin Chen
Citations: 670
h-index: 8
Jiaming Wang
Jiaming Wang
Citations: 14
h-index: 2
Shuang Chen
Shuang Chen
Citations: 81
h-index: 3
Zechen Li
Zechen Li
University of New South Wales
Citations: 118
h-index: 6
Yang Shi
Yang Shi
Peking University
Citations: 194
h-index: 6
Yuqing Tang
Yuqing Tang
Citations: 3
h-index: 1
Weining Wang
Weining Wang
Citations: 19
h-index: 3
Chaoyou Fu
Chaoyou Fu
Citations: 128
h-index: 2
Yifan Zhang
Yifan Zhang
Citations: 11
h-index: 2
Binyu Wang
Binyu Wang
Citations: 352
h-index: 3

다중 모드 대규모 언어 모델(MLLM)은 수동적인 관찰자에서 능동적인 에이전트로 진화하며, 시각적 확장(시각 도구 사용)과 지식 확장(오픈 웹 검색)을 통해 문제를 해결합니다. 그러나 기존의 평가 방법은 유연한 도구 통합 부족, 시각 및 검색 도구의 개별적인 테스트, 그리고 최종 답변에 대한 평가 위주라는 한계를 가지고 있습니다. 결과적으로, 도구가 실제로 호출되었는지, 올바르게 적용되었는지, 효율적으로 사용되었는지 여부를 확인할 수 없습니다. 이러한 문제를 해결하기 위해, 우리는 다중 모드 에이전트의 능력을 평가하기 위한 프로세스 기반의 벤치마크인 Agentic-MME를 소개합니다. Agentic-MME는 6개의 도메인과 3가지 난이도 수준에 걸쳐 418개의 실제 과제를 포함하며, 다양한 시너지 효과를 평가할 수 있도록 설계되었습니다. 각 과제는 평균 10시간 이상의 수동 주석 작업이 필요한 2,000개 이상의 단계별 체크포인트를 포함합니다. 각 과제는 샌드박스 환경의 코드 및 API를 지원하는 통합 평가 프레임워크와 함께, S축과 V축을 기준으로 단계별 체크포인트가 주석 처리된 인간 참조 경로를 제공합니다. 우리는 진정한 프로세스 수준의 검증을 위해 최종 답변뿐만 아니라 세부적인 중간 상태를 감사하고, 인간 참조 경로와 비교하여 과도한 사고를 측정하여 효율성을 정량화합니다. 실험 결과, 가장 뛰어난 모델인 Gemini3-pro는 전반적으로 56.3%의 정확도를 달성했지만, 난이도 3단계 과제에서는 23.0%로 현저히 낮아져, 실제 다중 모드 에이전트 문제 해결의 어려움을 보여줍니다.

Original Abstract

Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!