BrowseComp-$V^3$: 멀티모달 브라우징 에이전트를 위한 시각적, 수직적, 검증 가능한 벤치마크
BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents
점차 고도화된 계획 및 도구 사용 능력을 갖춘 멀티모달 대형 언어 모델(MLLM)은 개방형 환경에서 멀티모달 웹 브라우징과 심층 검색을 수행할 수 있는 자율 에이전트로 진화하고 있습니다. 그러나 기존의 멀티모달 브라우징 벤치마크는 작업 복잡성, 증거 접근성, 평가 세분성 측면에서 한계가 있어 심층 검색 능력에 대한 포괄적이고 재현 가능한 평가를 저해하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 다양한 도메인에 걸쳐 신중하게 선별된 300개의 고난도 질문으로 구성된 새로운 벤치마크인 BrowseComp-$V^3$를 소개합니다. 이 벤치마크는 결정적인 증거가 웹 페이지 내외의 텍스트와 시각적 모달리티에 걸쳐 혼재된 심층적이고 다층적인 교차 모달 멀티홉 추론을 강조합니다. 모든 근거 자료는 공개적으로 검색 가능해야 한다는 엄격한 요구사항을 두어 공정성과 재현성을 보장합니다. 최종 답변의 정확도를 넘어, 전문가가 검증한 하위 목표 기반의 과정 평가 메커니즘을 도입하여 중간 추론 행동에 대한 세밀한 분석과 능력의 경계에 대한 체계적인 특성화를 가능하게 했습니다. 또한, 다양한 웹 검색 및 시각 인식 도구를 통합한 단일화된 멀티모달 브라우징 에이전트 프레임워크인 OmniSeeker를 제안합니다. 포괄적인 실험 결과, 최첨단 모델조차도 본 벤치마크에서 36%의 정확도에 그쳐 멀티모달 정보 통합 및 미세 인식 능력에 중대한 병목이 있음을 드러냈습니다. 우리의 결과는 현재 모델의 능력과 실제 환경에서의 견고한 멀티모달 심층 검색 간에 근본적인 격차가 있음을 시사합니다.
Multimodal large language models (MLLMs), equipped with increasingly advanced planning and tool-use capabilities, are evolving into autonomous agents capable of performing multimodal web browsing and deep search in open-world environments. However, existing benchmarks for multimodal browsing remain limited in task complexity, evidence accessibility, and evaluation granularity, hindering comprehensive and reproducible assessments of deep search capabilities. To address these limitations, we introduce BrowseComp-$V^3$, a novel benchmark consisting of 300 carefully curated and challenging questions spanning diverse domains. The benchmark emphasizes deep, multi-level, and cross-modal multi-hop reasoning, where critical evidence is interleaved across textual and visual modalities within and across web pages. All supporting evidence is strictly required to be publicly searchable, ensuring fairness and reproducibility. Beyond final-answer accuracy, we incorporate an expert-validated, subgoal-driven process evaluation mechanism that enables fine-grained analysis of intermediate reasoning behaviors and systematic characterization of capability boundaries. In addition, we propose OmniSeeker, a unified multimodal browsing agent framework integrating diverse web search and visual perception tools. Comprehensive experiments demonstrate that even state-of-the-art models achieve only 36% accuracy on our benchmark, revealing critical bottlenecks in multimodal information integration and fine-grained perception. Our results highlight a fundamental gap between current model capabilities and robust multimodal deep search in real-world settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.