2601.09278v1 Jan 14, 2026 cs.AI

M$^3$Searcher: 검색 지향적 추론을 활용한 모듈형 멀티모달 정보 탐색 에이전트

M$^3$Searcher: Modular Multimodal Information Seeking Agency with Retrieval-Oriented Reasoning

Xiaohan Yu
Xiaohan Yu
Citations: 50
h-index: 4
Lang Mei
Lang Mei
Citations: 65
h-index: 4
Chong Chen
Chong Chen
Citations: 27
h-index: 3
Chao Feng
Chao Feng
Citations: 156
h-index: 5

최근 DeepResearch 스타일 에이전트의 발전은 실제 웹 환경에서 자율적으로 정보를 획득하고 종합하는 데 있어 강력한 역량을 입증했습니다. 그러나 기존 접근 방식은 근본적으로 텍스트 모달리티에만 국한되어 있다는 한계가 있습니다. 자율 정보 탐색 에이전트를 멀티모달 환경으로 확장하는 것은 대규모 멀티모달 도구 사용을 위한 모델 학습 시 발생하는 전문화와 일반화 간의 상충 관계(trade-off), 그리고 복잡한 다단계 멀티모달 검색 궤적을 포착하는 학습 데이터의 심각한 부족이라는 결정적인 과제를 야기합니다. 이러한 문제를 해결하기 위해, 우리는 정보 획득과 정답 도출 과정을 명시적으로 분리하는 모듈형 멀티모달 정보 탐색 에이전트인 M$^3$Searcher를 제안합니다. M$^3$Searcher는 사실적 정확성, 추론의 타당성, 검색 충실도를 동시에 장려하는 검색 지향적 다목적 보상을 통해 최적화됩니다. 또한, 검색 중심의 강화 학습 훈련을 지원하기 위해 멀티모달 멀티홉 데이터셋인 MMSearchVQA를 개발했습니다. 실험 결과는 M$^3$Searcher가 기존 접근 방식을 능가하며, 복잡한 멀티모달 작업에서 강력한 전이 적응성과 효과적인 추론 능력을 발휘함을 보여줍니다.

Original Abstract

Recent advances in DeepResearch-style agents have demonstrated strong capabilities in autonomous information acquisition and synthesize from real-world web environments. However, existing approaches remain fundamentally limited to text modality. Extending autonomous information-seeking agents to multimodal settings introduces critical challenges: the specialization-generalization trade-off that emerges when training models for multimodal tool-use at scale, and the severe scarcity of training data capturing complex, multi-step multimodal search trajectories. To address these challenges, we propose M$^3$Searcher, a modular multimodal information-seeking agent that explicitly decouples information acquisition from answer derivation. M$^3$Searcher is optimized with a retrieval-oriented multi-objective reward that jointly encourages factual accuracy, reasoning soundness, and retrieval fidelity. In addition, we develop MMSearchVQA, a multimodal multi-hop dataset to support retrieval centric RL training. Experimental results demonstrate that M$^3$Searcher outperforms existing approaches, exhibits strong transfer adaptability and effective reasoning in complex multimodal tasks.

1 Citations
0 Influential
2.5 Altmetric
13.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!