2603.00873v1 Mar 01, 2026 cs.AI

MC-Search: 구조화된 장기 추론 체인을 활용한 다중 모드 에이전트 검색의 평가 및 개선

MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains

Ting-Wei Li
Ting-Wei Li
Citations: 25
h-index: 3
Xuying Ning
Xuying Ning
Citations: 242
h-index: 10
Jiaru Zou
Jiaru Zou
Univeristy of Illinois Urbana Champaign
Citations: 307
h-index: 11
Dongqi Fu
Dongqi Fu
Citations: 742
h-index: 17
Mengting Ai
Mengting Ai
Citations: 124
h-index: 5
Hanghang Tong
Hanghang Tong
Citations: 220
h-index: 8
Tianxin Wei
Tianxin Wei
Citations: 355
h-index: 11
Hendrik F. Hamann
Hendrik F. Hamann
Citations: 42
h-index: 4
Yada Zhu
Yada Zhu
Citations: 131
h-index: 8
Jingrui He
Jingrui He
Citations: 179
h-index: 8

단계별, 다중 모드, 지식 기반 추론에 대한 수요가 증가함에 따라, 다중 모드 대규모 언어 모델(MLLM)은 기존의 고정된 검색 후 생성 방식에서 벗어나 더욱 정교한 에이전트 기반 다중 모드 검색 증강 생성(MM-RAG) 방식으로 발전하고 있습니다. 그러나 기존 벤치마크는 주로 짧은 검색 체인을 사용하는 단순화된 질의응답에 초점을 맞추고 있으며, 적응적 계획 및 다중 모드 추론은 충분히 탐구되지 않았습니다. 본 연구에서는 다섯 가지 대표적인 추론 구조를 포괄하는 긴, 단계별로 주석이 달린 추론 체인을 갖춘 에이전트 기반 MM-RAG 시스템을 위한 최초의 벤치마크인 MC-Search를 제시합니다. 각 예시에는 하위 질문, 검색 모드, 지원 사실 및 중간 답변이 명시되어 있으며, HAVE(Hop-wise Attribution and Verification of Evidence)를 통해 정확성을 보장하여 평균 3.7개의 단계를 가진 3,333개의 고품질 예시를 생성했습니다. MC-Search는 답변 정확도 외에도 추론 품질, 단계별 검색 및 계획 정확도를 위한 새로운 프로세스 레벨 지표를 도입합니다. 우리는 통일된 에이전트 기반 MM-RAG 파이프라인을 개발하여, 여섯 가지 선도적인 MLLM을 벤치마킹하고, 과도한 검색 및 부족한 검색, 그리고 모드 불일치 계획과 같은 체계적인 문제점을 밝혀냈습니다. 마지막으로, 검증된 추론 체인을 활용하는 프로세스 기반의 미세 조정 프레임워크인 Search-Align을 소개하며, 우리의 데이터가 정확한 평가를 가능하게 할 뿐만 아니라, 오픈 소스 MLLM의 계획 및 검색 정확도를 향상시킨다는 것을 보여줍니다.

Original Abstract

With the increasing demand for step-wise, cross-modal, and knowledge-grounded reasoning, multimodal large language models (MLLMs) are evolving beyond the traditional fixed retrieve-then-generate paradigm toward more sophisticated agentic multimodal retrieval-augmented generation (MM-RAG). Existing benchmarks, however, mainly focus on simplified QA with short retrieval chains, leaving adaptive planning and multimodal reasoning underexplored. We present MC-Search, the first benchmark for agentic MM-RAG with long, step-wise annotated reasoning chains spanning five representative reasoning structures. Each example specifies sub-questions, retrieval modalities, supporting facts, and intermediate answers, with fidelity ensured by HAVE (Hop-wise Attribution and Verification of Evidence), resulting in 3,333 high-quality examples averaging 3.7 hops. Beyond answer accuracy, MC-Search introduces new process-level metrics for reasoning quality, stepwise retrieval and planning accuracy. By developing a unified agentic MM-RAG pipeline, we benchmark six leading MLLMs and reveal systematic issues such as over- and under-retrieval and modality-misaligned planning. Finally, we introduce Search-Align, a process-supervised fine-tuning framework leveraging verified reasoning chains, showing that our data not only enables faithful evaluation but also improves planning and retrieval fidelity in open-source MLLMs.

3 Citations
0 Influential
8.5 Altmetric
45.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!