2602.02185v2 Feb 02, 2026 cs.CV

Vision-DeepResearch 벤치마크: 다중 모드 대규모 언어 모델을 위한 시각 및 텍스트 검색 재고

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Shiting Huang
Shiting Huang
Citations: 24
h-index: 4
Yu Zeng
Yu Zeng
Citations: 112
h-index: 5
Zhen Fang
Zhen Fang
Citations: 25
h-index: 3
Zehui Chen
Zehui Chen
Citations: 1,564
h-index: 8
Philip Torr
Philip Torr
Citations: 513
h-index: 12
Wenxuan Huang
Wenxuan Huang
Citations: 27
h-index: 3
Shuang Chen
Shuang Chen
Citations: 21
h-index: 3
Yufan Shen
Yufan Shen
Citations: 23
h-index: 2
Yishuo Cai
Yishuo Cai
Citations: 8
h-index: 2
Xiaoman Wang
Xiaoman Wang
Citations: 64
h-index: 3
Zhenfei Yin
Zhenfei Yin
Citations: 172
h-index: 6
Lin Chen
Lin Chen
Citations: 15
h-index: 3
Yiming Zhao
Yiming Zhao
Citations: 38
h-index: 4
Yao Hu
Yao Hu
Citations: 511
h-index: 5
Wanli Ouyang
Wanli Ouyang
Citations: 20
h-index: 3
Shaosheng Cao
Shaosheng Cao
Citations: 80
h-index: 4
Xu Tang
Xu Tang
Citations: 526
h-index: 7

다중 모드 대규모 언어 모델(MLLM)은 VQA(Visual Question Answering) 분야에서 발전했으며, 현재는 검색 엔진을 활용하여 복잡한 시각-텍스트 사실 검색을 수행하는 Vision-DeepResearch 시스템을 지원합니다. 그러나 이러한 시각 및 텍스트 검색 능력을 평가하는 것은 여전히 어렵고, 기존 벤치마크는 두 가지 주요한 한계를 가지고 있습니다. 첫째, 기존 벤치마크는 시각 검색 중심적이지 않습니다. 시각 검색이 필요한 답변이 텍스트 질문 내의 교차 텍스트 단서로 인해 노출되거나, 현재 MLLM의 기존 세계 지식을 통해 추론될 수 있습니다. 둘째, 지나치게 이상화된 평가 시나리오입니다. 이미지 검색 측면에서 필요한 정보는 종종 전체 이미지와의 거의 정확한 매치를 통해 얻을 수 있으며, 텍스트 검색 측면은 지나치게 직접적이고 도전적이지 않습니다. 이러한 문제를 해결하기 위해, 2,000개의 VQA 인스턴스로 구성된 Vision-DeepResearch 벤치마크(VDR-Bench)를 구축했습니다. 모든 질문은 실제 환경에서의 Vision-DeepResearch 시스템의 동작을 평가하기 위해 신중한 다단계 큐레이션 파이프라인과 엄격한 전문가 검토를 통해 생성되었습니다. 또한, 현재 MLLM의 부족한 시각 검색 능력을 해결하기 위해 간단한 다단계 크롭 검색 워크플로우를 제안합니다. 이 전략은 실제 시각 검색 시나리오에서 모델 성능을 효과적으로 향상시키는 것으로 나타났습니다. 전반적으로, 우리의 결과는 향후 다중 모드 딥 러닝 시스템 설계에 대한 실질적인 지침을 제공합니다. 코드는 https://github.com/Osilly/Vision-DeepResearch 에서 공개될 예정입니다.

Original Abstract

Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.

4 Citations
0 Influential
56.688635270431 Altmetric
287.4 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!