2602.12876v1 Feb 13, 2026 cs.AI

BrowseComp-$V^3$: 멀티모달 브라우징 에이전트를 위한 시각적, 수직적, 검증 가능한 벤치마크

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Zhengpin Li
Zhengpin Li
Citations: 40
h-index: 3
Lang Mei
Lang Mei
Citations: 65
h-index: 4
Jiepeng Zhou
Jiepeng Zhou
Citations: 1
h-index: 1
Jialong Wu
Jialong Wu
Citations: 510
h-index: 10
Qintong Zhang
Qintong Zhang
Citations: 166
h-index: 5
Guochen Yan
Guochen Yan
Citations: 5
h-index: 2
Zhengwei Tao
Zhengwei Tao
Citations: 402
h-index: 8
Bo Li
Bo Li
Citations: 2
h-index: 1
Wentao Zhang
Wentao Zhang
Citations: 2
h-index: 1
Jiaoyan Chen
Jiaoyan Chen
Citations: 10
h-index: 2
Huanyao Zhang
Huanyao Zhang
Citations: 13
h-index: 2
Bowen Zhou
Bowen Zhou
Citations: 2
h-index: 1
Yanzhe Dan
Yanzhe Dan
Citations: 0
h-index: 0
Haishan Lu
Haishan Lu
Citations: 55
h-index: 4
Yu Han
Yu Han
Citations: 7
h-index: 1
Zinan Sheng
Zinan Sheng
Citations: 0
h-index: 0
Yang Shi
Yang Shi
Citations: 44
h-index: 3
Yuanpeng He
Yuanpeng He
Citations: 44
h-index: 5
Xiaohan Yu
Xiaohan Yu
Citations: 602
h-index: 13
Chong Chen
Chong Chen
Citations: 0
h-index: 0
Bin Cui
Bin Cui
Citations: 168
h-index: 6
Zhiyong Cao
Zhiyong Cao
Citations: 98
h-index: 5
Hao Liang
Hao Liang
Citations: 554
h-index: 10
Jiaye Lin
Jiaye Lin
Citations: 43
h-index: 3
Ru Zhao
Ru Zhao
Citations: 95
h-index: 2

점차 고도화된 계획 및 도구 사용 능력을 갖춘 멀티모달 대형 언어 모델(MLLM)은 개방형 환경에서 멀티모달 웹 브라우징과 심층 검색을 수행할 수 있는 자율 에이전트로 진화하고 있습니다. 그러나 기존의 멀티모달 브라우징 벤치마크는 작업 복잡성, 증거 접근성, 평가 세분성 측면에서 한계가 있어 심층 검색 능력에 대한 포괄적이고 재현 가능한 평가를 저해하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 다양한 도메인에 걸쳐 신중하게 선별된 300개의 고난도 질문으로 구성된 새로운 벤치마크인 BrowseComp-$V^3$를 소개합니다. 이 벤치마크는 결정적인 증거가 웹 페이지 내외의 텍스트와 시각적 모달리티에 걸쳐 혼재된 심층적이고 다층적인 교차 모달 멀티홉 추론을 강조합니다. 모든 근거 자료는 공개적으로 검색 가능해야 한다는 엄격한 요구사항을 두어 공정성과 재현성을 보장합니다. 최종 답변의 정확도를 넘어, 전문가가 검증한 하위 목표 기반의 과정 평가 메커니즘을 도입하여 중간 추론 행동에 대한 세밀한 분석과 능력의 경계에 대한 체계적인 특성화를 가능하게 했습니다. 또한, 다양한 웹 검색 및 시각 인식 도구를 통합한 단일화된 멀티모달 브라우징 에이전트 프레임워크인 OmniSeeker를 제안합니다. 포괄적인 실험 결과, 최첨단 모델조차도 본 벤치마크에서 36%의 정확도에 그쳐 멀티모달 정보 통합 및 미세 인식 능력에 중대한 병목이 있음을 드러냈습니다. 우리의 결과는 현재 모델의 능력과 실제 환경에서의 견고한 멀티모달 심층 검색 간에 근본적인 격차가 있음을 시사합니다.

Original Abstract

Multimodal large language models (MLLMs), equipped with increasingly advanced planning and tool-use capabilities, are evolving into autonomous agents capable of performing multimodal web browsing and deep search in open-world environments. However, existing benchmarks for multimodal browsing remain limited in task complexity, evidence accessibility, and evaluation granularity, hindering comprehensive and reproducible assessments of deep search capabilities. To address these limitations, we introduce BrowseComp-$V^3$, a novel benchmark consisting of 300 carefully curated and challenging questions spanning diverse domains. The benchmark emphasizes deep, multi-level, and cross-modal multi-hop reasoning, where critical evidence is interleaved across textual and visual modalities within and across web pages. All supporting evidence is strictly required to be publicly searchable, ensuring fairness and reproducibility. Beyond final-answer accuracy, we incorporate an expert-validated, subgoal-driven process evaluation mechanism that enables fine-grained analysis of intermediate reasoning behaviors and systematic characterization of capability boundaries. In addition, we propose OmniSeeker, a unified multimodal browsing agent framework integrating diverse web search and visual perception tools. Comprehensive experiments demonstrate that even state-of-the-art models achieve only 36% accuracy on our benchmark, revealing critical bottlenecks in multimodal information integration and fine-grained perception. Our results highlight a fundamental gap between current model capabilities and robust multimodal deep search in real-world settings.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!