Vision-DeepResearch: 멀티모달 대규모 언어 모델에서 심층 연구 능력을 향상시키는 방법
Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
멀티모달 대규모 언어 모델(MLLM)은 다양한 시각 관련 작업에서 뛰어난 성과를 보여왔습니다. 그러나 내부 지식의 제한으로 인해, 기존 연구에서는 MLLM의 성능을 향상시키기 위해 "추론 후 도구 호출" 방식을 사용하여 시각 및 텍스트 검색 엔진을 활용하여 방대한 사실 정보를 요구하는 작업에서 상당한 이점을 얻었습니다. 그러나 이러한 접근 방식은 일반적으로 멀티모달 검색을 단순한 설정으로 정의하며, 전체 수준 또는 개체 수준의 이미지 쿼리와 몇 개의 텍스트 쿼리만으로 질문에 대한 핵심 증거를 얻을 수 있다고 가정합니다. 이는 상당한 시각적 노이즈가 존재하는 실제 시나리오에서는 비현실적입니다. 또한, 이러한 방식은 추론의 깊이와 검색 범위가 제한되어 있어, 다양한 시각 및 텍스트 소스에서 증거를 종합해야 하는 복잡한 질문을 해결하기 어렵습니다. 이러한 문제점을 해결하기 위해, 우리는 Vision-DeepResearch를 제안합니다. Vision-DeepResearch는 다단계, 다중 개체, 다중 스케일의 시각 및 텍스트 검색을 통해 실제 검색 엔진에서 발생하는 많은 노이즈에도 강건하게 작동하는 새로운 멀티모달 심층 연구 패러다임을 제시합니다. 우리의 Vision-DeepResearch는 수십 단계의 추론과 수백 번의 검색 엔진 상호 작용을 지원하며, 콜드-스타트 지도 학습 및 강화 학습을 통해 MLLM에 심층 연구 능력을 내재화합니다. 결과적으로, Vision-DeepResearch는 기존의 멀티모달 심층 연구 MLLM 및 GPT-5, Gemini-2.5-pro, Claude-4-Sonnet과 같은 강력한 폐쇄형 기반 모델을 사용하는 워크플로우보다 훨씬 뛰어난 성능을 보입니다. 코드 및 관련 자료는 https://github.com/Osilly/Vision-DeepResearch에서 확인할 수 있습니다.
Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.