VTC-Bench: 시각적 도구 체인 연결을 통한 능동적 다중 모드 모델 평가
VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
최근의 발전으로 인해 다중 모드 대규모 언어 모델(MLLM)은 표준적인 시각 질의 응답을 넘어, 복잡한 시각 작업을 위해 외부 도구를 활용하는 방향으로 확장되었습니다. 하지만 여전히 다양한 도구를 정확하게 실행하고 효과적으로 조합하여 복잡한 작업을 수행하는 것은 중요한 과제로 남아 있습니다. 기존의 벤치마크는 제한적인 도구 세트와 단순한 도구 사용 경로에 의해 제약되어 복잡하고 다양한 도구 상호 작용을 제대로 반영하지 못하며, 실제 환경에서의 모델 성능을 평가하는 데 한계가 있습니다. 이러한 격차를 해소하기 위해, MLLM의 도구 사용 능력을 평가하기 위한 포괄적인 벤치마크인 VisualToolChain-Bench (VTC-Bench)를 소개합니다. 실제 컴퓨터 비전 파이프라인과 일치하도록, 저희의 프레임워크는 32가지의 다양한 OpenCV 기반 시각적 연산을 특징으로 합니다. 이 풍부한 도구 세트는 광범위한 조합을 가능하게 하여, VTC-Bench는 다중 도구 조합과 장기적인, 다단계 계획 실행을 엄격하게 평가할 수 있습니다. 정확한 평가를 위해, 저희는 9가지 범주의 인지적 계층 구조로 구성된 680개의 문제 세트를 제공하며, 각 문제에는 정확한 실행 경로가 포함되어 있습니다. 19개의 선도적인 MLLM에 대한 광범위한 실험 결과, 현재 모델의 시각적 능동적 기능에 대한 중요한 제한 사항이 드러났습니다. 특히, 모델은 다양한 도구 세트에 적응하고 새로운 연산에 일반화하는 데 어려움을 겪으며, 저희 벤치마크에서 가장 뛰어난 성능을 보이는 Gemini-3.0-Pro 모델조차 51%의 정확도에 그쳤습니다. 또한, 다중 도구 조합은 여전히 중요한 과제입니다. 복잡한 작업을 수행할 때, 모델은 효율적인 실행 계획을 수립하는 데 어려움을 겪으며, 최적의 도구를 선택하는 대신 제한적이고 최적이 아닌 함수 집합에 크게 의존합니다. VTC-Bench는 이러한 근본적인 과제를 식별함으로써, 보다 일반화된 시각적 능동적 모델 개발을 위한 엄격한 기준을 제시합니다.
Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench~(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51\% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.