ATP-Bench: MLLM의 간결한 생성 방식을 위한 에이전트 기반 도구 계획 연구
ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation
텍스트와 이미지의 결합된 생성은 다중 모드 대규모 언어 모델(MLLM)의 중요한 발전 분야이며, 복잡한 정보를 보다 직관적으로 전달하는 방법을 제공합니다. 현재의 방식은 이미지 생성 또는 검색 증강에 의존하지만, 일반적으로 이 두 가지를 상호 배타적인 경로로 취급하여 사실성과 창의성을 통합하지 못합니다. 우리는 이 분야의 다음 단계는 에이전트 기반 도구 계획이라고 주장합니다. 여기서 모델은 중앙 제어기로 작동하며, 시각적으로 중요한 질문에 대한 결합된 응답을 생성하기 위해 언제, 어디서, 어떤 도구를 사용할지 자율적으로 결정합니다. 이 패러다임을 체계적으로 평가하기 위해, 우리는 7,702개의 질의응답 쌍(1,592개의 시각 질의응답 쌍 포함)으로 구성된 새로운 벤치마크인 ATP-Bench를 소개합니다. 이 벤치마크는 8가지 범주와 25가지 시각적으로 중요한 의도를 포함하며, 인간이 검증한 질의와 정답을 제공합니다. 또한, 에이전트 기반 계획을 엔드투엔드 실행 및 변경 가능한 도구 백엔드와 독립적으로 평가하기 위해, 우리는 다중 에이전트 MLLM-as-a-Judge(MAM) 시스템을 제안합니다. MAM은 도구 호출의 정확성을 평가하고, 도구 사용 기회를 놓친 경우를 식별하며, 정답 참조 없이 전체 응답 품질을 평가합니다. 10개의 최첨단 MLLM에 대한 광범위한 실험 결과, 모델은 일관된 결합된 계획에 어려움을 겪으며 도구 사용 방식에 상당한 차이를 보이는 것으로 나타났습니다. 이는 개선의 여지가 많음을 보여주며, 결합된 생성 기술 발전을 위한 실질적인 지침을 제공합니다. 데이터셋 및 코드는 https://github.com/Qwen-Applications/ATP-Bench 에서 확인할 수 있습니다.
Interleaved text-and-image generation represents a significant frontier for Multimodal Large Language Models (MLLMs), offering a more intuitive way to convey complex information. Current paradigms rely on either image generation or retrieval augmentation, yet they typically treat the two as mutually exclusive paths, failing to unify factuality with creativity. We argue that the next milestone in this field is Agentic Tool Planning, where the model serves as a central controller that autonomously determines when, where, and which tools to invoke to produce interleaved responses for visual-critical queries. To systematically evaluate this paradigm, we introduce ATP-Bench, a novel benchmark comprising 7,702 QA pairs (including 1,592 VQA pairs) across eight categories and 25 visual-critical intents, featuring human-verified queries and ground truths. Furthermore, to evaluate agentic planning independent of end-to-end execution and changing tool backends, we propose a Multi-Agent MLLM-as-a-Judge (MAM) system. MAM evaluates tool-call precision, identifies missed opportunities for tool use, and assesses overall response quality without requiring ground-truth references. Our extensive experiments on 10 state-of-the-art MLLMs reveal that models struggle with coherent interleaved planning and exhibit significant variations in tool-use behavior, highlighting substantial room for improvement and providing actionable guidance for advancing interleaved generation. Dataset and code are available at https://github.com/Qwen-Applications/ATP-Bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.