2602.02185v2 Feb 02, 2026 cs.CV

Vision-DeepResearch 벤치마크: 다중 모드 대규모 언어 모델을 위한 시각 및 텍스트 검색 재고

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Shiting Huang
Shiting Huang
Citations: 52
h-index: 5
Yu Zeng
Yu Zeng
Citations: 172
h-index: 8
Zhen Fang
Zhen Fang
Citations: 61
h-index: 5
Zehui Chen
Zehui Chen
Citations: 1,770
h-index: 9
Philip Torr
Philip Torr
Citations: 707
h-index: 12
Wenxuan Huang
Wenxuan Huang
Citations: 57
h-index: 6
Shuang Chen
Shuang Chen
Citations: 34
h-index: 4
Yufan Shen
Yufan Shen
Citations: 34
h-index: 2
Yishuo Cai
Yishuo Cai
Citations: 20
h-index: 3
Xiaoman Wang
Xiaoman Wang
Citations: 99
h-index: 4
Zhenfei Yin
Zhenfei Yin
Citations: 232
h-index: 7
Lin Chen
Lin Chen
Citations: 34
h-index: 3
Yiming Zhao
Yiming Zhao
Citations: 60
h-index: 5
Yao Hu
Yao Hu
Citations: 610
h-index: 6
Wanli Ouyang
Wanli Ouyang
Citations: 40
h-index: 5
Shaosheng Cao
Shaosheng Cao
Citations: 110
h-index: 5
Xu Tang
Xu Tang
Citations: 552
h-index: 8

다중 모드 대규모 언어 모델(MLLM)은 VQA(Visual Question Answering) 분야에서 발전했으며, 현재는 검색 엔진을 활용하여 복잡한 시각-텍스트 사실 검색을 수행하는 Vision-DeepResearch 시스템을 지원합니다. 그러나 이러한 시각 및 텍스트 검색 능력을 평가하는 것은 여전히 어렵고, 기존 벤치마크는 두 가지 주요한 한계를 가지고 있습니다. 첫째, 기존 벤치마크는 시각 검색 중심적이지 않습니다. 시각 검색이 필요한 답변이 텍스트 질문 내의 교차 텍스트 단서로 인해 노출되거나, 현재 MLLM의 기존 세계 지식을 통해 추론될 수 있습니다. 둘째, 지나치게 이상화된 평가 시나리오입니다. 이미지 검색 측면에서 필요한 정보는 종종 전체 이미지와의 거의 정확한 매치를 통해 얻을 수 있으며, 텍스트 검색 측면은 지나치게 직접적이고 도전적이지 않습니다. 이러한 문제를 해결하기 위해, 2,000개의 VQA 인스턴스로 구성된 Vision-DeepResearch 벤치마크(VDR-Bench)를 구축했습니다. 모든 질문은 실제 환경에서의 Vision-DeepResearch 시스템의 동작을 평가하기 위해 신중한 다단계 큐레이션 파이프라인과 엄격한 전문가 검토를 통해 생성되었습니다. 또한, 현재 MLLM의 부족한 시각 검색 능력을 해결하기 위해 간단한 다단계 크롭 검색 워크플로우를 제안합니다. 이 전략은 실제 시각 검색 시나리오에서 모델 성능을 효과적으로 향상시키는 것으로 나타났습니다. 전반적으로, 우리의 결과는 향후 다중 모드 딥 러닝 시스템 설계에 대한 실질적인 지침을 제공합니다. 코드는 https://github.com/Osilly/Vision-DeepResearch 에서 공개될 예정입니다.

Original Abstract

Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.

9 Citations
0 Influential
56.688635270431 Altmetric
292.4 Score
Original PDF
462

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!