MM-DeepResearch: 간단하고 효과적인 다중 모드 에이전트 기반 검색 기본 모델
MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline
본 연구는 명시적인 추론 및 계획, 다중 도구 활용, 그리고 모드 간 정보 통합 기능을 갖춘 다중 모드 연구 에이전트 개발을 목표로 합니다. 이러한 에이전트를 개발하는 과정에서 세 가지 주요 과제를 발견했습니다. (1) 검색 기반 다중 모드 질의응답 데이터의 부족, (2) 효과적인 검색 경로의 부재, (3) 온라인 검색 API를 사용한 학습의 과도한 비용입니다. 이러한 문제점을 해결하기 위해, 먼저 시각 및 텍스트 노드를 모드 내외부에서 모델링하고 연결하는, 하이퍼그래프 기반의 질의응답 생성 방법인 Hyper-Search를 제안합니다. 이를 통해 다양한 검색 도구를 활용하여 해결해야 하는 검색 중심의 다중 모드 질의응답 쌍을 생성합니다. 둘째, DR-TTS를 소개합니다. DR-TTS는 검색과 관련된 작업을 검색 도구 유형에 따라 여러 범주로 분해하고, 각 도구에 특화된 검색 도구 전문가를 개발하여 최적화합니다. 그런 다음, 이러한 도구 전문가를 결합하여 트리 검색을 통해 검색 경로를 공동으로 탐색하고, 다양한 검색 도구를 사용하여 복잡한 작업을 성공적으로 해결하는 경로를 생성합니다. 셋째, 여러 검색 도구를 지원하는 오프라인 검색 엔진을 구축하여, 비용이 많이 드는 온라인 검색 API를 사용하지 않고 에이전트 기반 강화 학습을 가능하게 합니다. 이러한 세 가지 설계를 통해 강력한 다중 모드 심층 연구 에이전트인 MM-DeepResearch를 개발했으며, 다양한 벤치마크에서 우수한 성능을 보였습니다. 코드 및 관련 정보는 다음 링크에서 확인할 수 있습니다: https://github.com/HJYao00/MM-DeepResearch
We aim to develop a multimodal research agent capable of explicit reasoning and planning, multi-tool invocation, and cross-modal information synthesis, enabling it to conduct deep research tasks. However, we observe three main challenges in developing such agents: (1) scarcity of search-intensive multimodal QA data, (2) lack of effective search trajectories, and (3) prohibitive cost of training with online search APIs. To tackle them, we first propose Hyper-Search, a hypergraph-based QA generation method that models and connects visual and textual nodes within and across modalities, enabling to generate search-intensive multimodal QA pairs that require invoking various search tools to solve. Second, we introduce DR-TTS, which first decomposes search-involved tasks into several categories according to search tool types, and respectively optimize specialized search tool experts for each tool. It then recomposes tool experts to jointly explore search trajectories via tree search, producing trajectories that successfully solve complex tasks using various search tools. Third, we build an offline search engine supporting multiple search tools, enabling agentic reinforcement learning without using costly online search APIs. With the three designs, we develop MM-DeepResearch, a powerful multimodal deep research agent, and extensive results shows its superiority across benchmarks. Code is available at https://github.com/HJYao00/MM-DeepResearch
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.