Vision-DeepResearch 벤치마크: 다중 모드 대규모 언어 모델을 위한 시각 및 텍스트 검색 재고
Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
다중 모드 대규모 언어 모델(MLLM)은 VQA(Visual Question Answering) 분야에서 발전했으며, 현재는 검색 엔진을 활용하여 복잡한 시각-텍스트 사실 검색을 수행하는 Vision-DeepResearch 시스템을 지원합니다. 그러나 이러한 시각 및 텍스트 검색 능력을 평가하는 것은 여전히 어렵고, 기존 벤치마크는 두 가지 주요한 한계를 가지고 있습니다. 첫째, 기존 벤치마크는 시각 검색 중심적이지 않습니다. 시각 검색이 필요한 답변이 텍스트 질문 내의 교차 텍스트 단서로 인해 노출되거나, 현재 MLLM의 기존 세계 지식을 통해 추론될 수 있습니다. 둘째, 지나치게 이상화된 평가 시나리오입니다. 이미지 검색 측면에서 필요한 정보는 종종 전체 이미지와의 거의 정확한 매치를 통해 얻을 수 있으며, 텍스트 검색 측면은 지나치게 직접적이고 도전적이지 않습니다. 이러한 문제를 해결하기 위해, 2,000개의 VQA 인스턴스로 구성된 Vision-DeepResearch 벤치마크(VDR-Bench)를 구축했습니다. 모든 질문은 실제 환경에서의 Vision-DeepResearch 시스템의 동작을 평가하기 위해 신중한 다단계 큐레이션 파이프라인과 엄격한 전문가 검토를 통해 생성되었습니다. 또한, 현재 MLLM의 부족한 시각 검색 능력을 해결하기 위해 간단한 다단계 크롭 검색 워크플로우를 제안합니다. 이 전략은 실제 시각 검색 시나리오에서 모델 성능을 효과적으로 향상시키는 것으로 나타났습니다. 전반적으로, 우리의 결과는 향후 다중 모드 딥 러닝 시스템 설계에 대한 실질적인 지침을 제공합니다. 코드는 https://github.com/Osilly/Vision-DeepResearch 에서 공개될 예정입니다.
Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.