BrowseComp-$V^3$: 시각적, 수직적, 검증 가능한 다중 모드 검색 에이전트를 위한 벤치마크
BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents
다중 모드 대규모 언어 모델(MLLM)은 점점 더 발전된 계획 및 도구 활용 능력을 갖추고 있으며, 개방형 환경에서 다중 모드 웹 검색 및 심층 검색을 수행할 수 있는 자율 에이전트로 진화하고 있습니다. 그러나 현재의 다중 모드 검색 벤치마크는 작업 복잡성, 증거 접근성 및 평가 세분성 측면에서 제한적이며, 이는 심층 검색 능력에 대한 종합적이고 재현 가능한 평가를 방해합니다. 이러한 제한 사항을 해결하기 위해, 우리는 300개의 신중하게 선별되고 도전적인 질문으로 구성된 새로운 벤치마크인 BrowseComp-$V^3$을 소개합니다. 이 벤치마크는 다양한 도메인을 포괄하며, 중요한 증거가 웹 페이지 내외부의 텍스트 및 시각 모드에 걸쳐 분산된 깊고 다단계 및 교차 모드 다중 홉 추론을 강조합니다. 모든 관련 증거는 공개적으로 검색 가능하도록 엄격하게 제한되어 공정성과 재현성을 보장합니다. 최종 답변 정확도 외에도, 우리는 전문가 검증을 거친 하위 목표 중심의 프로세스 평가 메커니즘을 통합하여 중간 추론 행동에 대한 세분화된 분석을 가능하게 하고, 능력의 경계를 체계적으로 특성화합니다. 또한, 우리는 다양한 웹 검색 및 시각 인식 도구를 통합한 통합 다중 모드 검색 에이전트 프레임워크인 OmniSeeker를 제안합니다. 포괄적인 실험 결과는 최첨단 모델조차도 BrowseComp-$V^3$ 벤치마크에서 36%의 정확도를 달성하는 데 그친다는 것을 보여주며, 이는 다중 모드 정보 통합 및 세분화된 인식에서의 중요한 병목 현상을 드러냅니다. 우리의 결과는 현재 모델의 능력과 실제 환경에서의 강력한 다중 모드 심층 검색 간의 근본적인 격차를 강조합니다.
Multimodal large language models (MLLMs), equipped with increasingly advanced planning and tool-use capabilities, are evolving into autonomous agents capable of performing multimodal web browsing and deep search in open-world environments. However, existing benchmarks for multimodal browsing remain limited in task complexity, evidence accessibility, and evaluation granularity, hindering comprehensive and reproducible assessments of deep search capabilities. To address these limitations, we introduce BrowseComp-$V^3$, a novel benchmark consisting of 300 carefully curated and challenging questions spanning diverse domains. The benchmark emphasizes deep, multi-level, and cross-modal multi-hop reasoning, where critical evidence is interleaved across textual and visual modalities within and across web pages. All supporting evidence is strictly required to be publicly searchable, ensuring fairness and reproducibility. Beyond final-answer accuracy, we incorporate an expert-validated, subgoal-driven process evaluation mechanism that enables fine-grained analysis of intermediate reasoning behaviors and systematic characterization of capability boundaries. In addition, we propose OmniSeeker, a unified multimodal browsing agent framework integrating diverse web search and visual perception tools. Comprehensive experiments demonstrate that even state-of-the-art models achieve only 36% accuracy on our benchmark, revealing critical bottlenecks in multimodal information integration and fine-grained perception. Our results highlight a fundamental gap between current model capabilities and robust multimodal deep search in real-world settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.