MC-Search: 구조화된 장기 추론 체인을 활용한 다중 모드 에이전트 검색의 평가 및 개선
MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains
단계별, 다중 모드, 지식 기반 추론에 대한 수요가 증가함에 따라, 다중 모드 대규모 언어 모델(MLLM)은 기존의 고정된 검색 후 생성 방식에서 벗어나 더욱 정교한 에이전트 기반 다중 모드 검색 증강 생성(MM-RAG) 방식으로 발전하고 있습니다. 그러나 기존 벤치마크는 주로 짧은 검색 체인을 사용하는 단순화된 질의응답에 초점을 맞추고 있으며, 적응적 계획 및 다중 모드 추론은 충분히 탐구되지 않았습니다. 본 연구에서는 다섯 가지 대표적인 추론 구조를 포괄하는 긴, 단계별로 주석이 달린 추론 체인을 갖춘 에이전트 기반 MM-RAG 시스템을 위한 최초의 벤치마크인 MC-Search를 제시합니다. 각 예시에는 하위 질문, 검색 모드, 지원 사실 및 중간 답변이 명시되어 있으며, HAVE(Hop-wise Attribution and Verification of Evidence)를 통해 정확성을 보장하여 평균 3.7개의 단계를 가진 3,333개의 고품질 예시를 생성했습니다. MC-Search는 답변 정확도 외에도 추론 품질, 단계별 검색 및 계획 정확도를 위한 새로운 프로세스 레벨 지표를 도입합니다. 우리는 통일된 에이전트 기반 MM-RAG 파이프라인을 개발하여, 여섯 가지 선도적인 MLLM을 벤치마킹하고, 과도한 검색 및 부족한 검색, 그리고 모드 불일치 계획과 같은 체계적인 문제점을 밝혀냈습니다. 마지막으로, 검증된 추론 체인을 활용하는 프로세스 기반의 미세 조정 프레임워크인 Search-Align을 소개하며, 우리의 데이터가 정확한 평가를 가능하게 할 뿐만 아니라, 오픈 소스 MLLM의 계획 및 검색 정확도를 향상시킨다는 것을 보여줍니다.
With the increasing demand for step-wise, cross-modal, and knowledge-grounded reasoning, multimodal large language models (MLLMs) are evolving beyond the traditional fixed retrieve-then-generate paradigm toward more sophisticated agentic multimodal retrieval-augmented generation (MM-RAG). Existing benchmarks, however, mainly focus on simplified QA with short retrieval chains, leaving adaptive planning and multimodal reasoning underexplored. We present MC-Search, the first benchmark for agentic MM-RAG with long, step-wise annotated reasoning chains spanning five representative reasoning structures. Each example specifies sub-questions, retrieval modalities, supporting facts, and intermediate answers, with fidelity ensured by HAVE (Hop-wise Attribution and Verification of Evidence), resulting in 3,333 high-quality examples averaging 3.7 hops. Beyond answer accuracy, MC-Search introduces new process-level metrics for reasoning quality, stepwise retrieval and planning accuracy. By developing a unified agentic MM-RAG pipeline, we benchmark six leading MLLMs and reveal systematic issues such as over- and under-retrieval and modality-misaligned planning. Finally, we introduce Search-Align, a process-supervised fine-tuning framework leveraging verified reasoning chains, showing that our data not only enables faithful evaluation but also improves planning and retrieval fidelity in open-source MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.