2602.12876v2 Feb 13, 2026 cs.AI

BrowseComp-$V^3$: 시각적, 수직적, 검증 가능한 다중 모드 검색 에이전트를 위한 벤치마크

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Zhengpin Li
Zhengpin Li
Citations: 40
h-index: 3
Lang Mei
Lang Mei
Citations: 65
h-index: 4
Jiepeng Zhou
Jiepeng Zhou
Citations: 1
h-index: 1
Jialong Wu
Jialong Wu
Citations: 510
h-index: 10
Qintong Zhang
Qintong Zhang
Citations: 166
h-index: 5
Guochen Yan
Guochen Yan
Citations: 5
h-index: 2
Zhengwei Tao
Zhengwei Tao
Citations: 402
h-index: 8
Bo Li
Bo Li
Citations: 2
h-index: 1
Wentao Zhang
Wentao Zhang
Citations: 2
h-index: 1
Jiaoyan Chen
Jiaoyan Chen
Citations: 10
h-index: 2
Huanyao Zhang
Huanyao Zhang
Citations: 13
h-index: 2
Bowen Zhou
Bowen Zhou
Citations: 2
h-index: 1
Yanzhe Dan
Yanzhe Dan
Citations: 0
h-index: 0
Haishan Lu
Haishan Lu
Citations: 55
h-index: 4
Yu Han
Yu Han
Citations: 7
h-index: 1
Zinan Sheng
Zinan Sheng
Citations: 0
h-index: 0
Yang Shi
Yang Shi
Citations: 44
h-index: 3
Yuanpeng He
Yuanpeng He
Citations: 44
h-index: 5
Xiaohan Yu
Xiaohan Yu
Citations: 602
h-index: 13
Chong Chen
Chong Chen
Citations: 0
h-index: 0
Bin Cui
Bin Cui
Citations: 168
h-index: 6
Zhiyong Cao
Zhiyong Cao
Citations: 98
h-index: 5
Hao Liang
Hao Liang
Citations: 554
h-index: 10
Jiaye Lin
Jiaye Lin
Citations: 43
h-index: 3
Ru Zhao
Ru Zhao
Citations: 95
h-index: 2

다중 모드 대규모 언어 모델(MLLM)은 점점 더 발전된 계획 및 도구 활용 능력을 갖추고 있으며, 개방형 환경에서 다중 모드 웹 검색 및 심층 검색을 수행할 수 있는 자율 에이전트로 진화하고 있습니다. 그러나 현재의 다중 모드 검색 벤치마크는 작업 복잡성, 증거 접근성 및 평가 세분성 측면에서 제한적이며, 이는 심층 검색 능력에 대한 종합적이고 재현 가능한 평가를 방해합니다. 이러한 제한 사항을 해결하기 위해, 우리는 300개의 신중하게 선별되고 도전적인 질문으로 구성된 새로운 벤치마크인 BrowseComp-$V^3$을 소개합니다. 이 벤치마크는 다양한 도메인을 포괄하며, 중요한 증거가 웹 페이지 내외부의 텍스트 및 시각 모드에 걸쳐 분산된 깊고 다단계 및 교차 모드 다중 홉 추론을 강조합니다. 모든 관련 증거는 공개적으로 검색 가능하도록 엄격하게 제한되어 공정성과 재현성을 보장합니다. 최종 답변 정확도 외에도, 우리는 전문가 검증을 거친 하위 목표 중심의 프로세스 평가 메커니즘을 통합하여 중간 추론 행동에 대한 세분화된 분석을 가능하게 하고, 능력의 경계를 체계적으로 특성화합니다. 또한, 우리는 다양한 웹 검색 및 시각 인식 도구를 통합한 통합 다중 모드 검색 에이전트 프레임워크인 OmniSeeker를 제안합니다. 포괄적인 실험 결과는 최첨단 모델조차도 BrowseComp-$V^3$ 벤치마크에서 36%의 정확도를 달성하는 데 그친다는 것을 보여주며, 이는 다중 모드 정보 통합 및 세분화된 인식에서의 중요한 병목 현상을 드러냅니다. 우리의 결과는 현재 모델의 능력과 실제 환경에서의 강력한 다중 모드 심층 검색 간의 근본적인 격차를 강조합니다.

Original Abstract

Multimodal large language models (MLLMs), equipped with increasingly advanced planning and tool-use capabilities, are evolving into autonomous agents capable of performing multimodal web browsing and deep search in open-world environments. However, existing benchmarks for multimodal browsing remain limited in task complexity, evidence accessibility, and evaluation granularity, hindering comprehensive and reproducible assessments of deep search capabilities. To address these limitations, we introduce BrowseComp-$V^3$, a novel benchmark consisting of 300 carefully curated and challenging questions spanning diverse domains. The benchmark emphasizes deep, multi-level, and cross-modal multi-hop reasoning, where critical evidence is interleaved across textual and visual modalities within and across web pages. All supporting evidence is strictly required to be publicly searchable, ensuring fairness and reproducibility. Beyond final-answer accuracy, we incorporate an expert-validated, subgoal-driven process evaluation mechanism that enables fine-grained analysis of intermediate reasoning behaviors and systematic characterization of capability boundaries. In addition, we propose OmniSeeker, a unified multimodal browsing agent framework integrating diverse web search and visual perception tools. Comprehensive experiments demonstrate that even state-of-the-art models achieve only 36% accuracy on our benchmark, revealing critical bottlenecks in multimodal information integration and fine-grained perception. Our results highlight a fundamental gap between current model capabilities and robust multimodal deep search in real-world settings.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!