2604.12890v1 Apr 14, 2026 cs.CV

장기적인 시야를 가진 에이전트 기반의 다중 모드 검색 연구

Towards Long-horizon Agentic Multimodal Search

Yifan Du
Yifan Du
Renmin University of China
Citations: 6,226
h-index: 10
Junyi Li
Junyi Li
Citations: 7
h-index: 2
Wayne Xin Zhao
Wayne Xin Zhao
Citations: 2,535
h-index: 27
Jie Wu
Jie Wu
Citations: 8
h-index: 2
Jinyang Li
Jinyang Li
Citations: 27
h-index: 3
Ji-Rong Wen
Ji-Rong Wen
Citations: 127
h-index: 5
Zikang Liu
Zikang Liu
Citations: 79
h-index: 3
Jinbiao Peng
Jinbiao Peng
Citations: 0
h-index: 0

다중 모드 딥 검색 에이전트는 텍스트 및 시각 정보를 반복적으로 수집하여 복잡한 문제를 해결하는 데 큰 잠재력을 보여주었습니다. 그러나 장기적인 관점에서 다중 모드 입력과 관련된 이질적인 정보 관리 및 높은 토큰 비용은 중요한 과제이며, 기존 방법은 종종 컨텍스트 폭주 또는 중요한 시각 정보 손실의 문제를 겪습니다. 이러한 문제를 해결하기 위해, 파일 기반의 시각적 표현 메커니즘을 중심으로 하는 새로운 장기적인 다중 모드 딥 검색 프레임워크인 LMM-Searcher를 제안합니다. 당사의 접근 방식은 시각적 자산을 외부 파일 시스템으로 오프로드하고 이를 가벼운 텍스트 식별자(UID)에 매핑하여 컨텍스트 오버헤드를 줄이면서 향후 접근을 위해 다중 모드 정보를 보존합니다. 또한, 에이전트에 맞춤형 이미지 검색 도구를 탑재하여 능동적인 인식을 위한 점진적이고 필요에 따른 시각 정보 로딩 전략을 구현했습니다. 더욱이, 복잡한 교차 모드 다중 단계 추론이 필요한 쿼리를 생성하도록 설계된 데이터 합성 파이프라인을 도입했습니다. 이 파이프라인을 사용하여 12,000개의 고품질 경로를 추출하여 Qwen3-VL-Thinking-30A3B를 특수화된 다중 모드 딥 검색 에이전트로 미세 조정했습니다. 네 가지 벤치마크에 대한 광범위한 실험 결과, 당사의 방법은 100턴의 검색 지평선까지 확장 가능하며, MM-BrowseComp 및 MMSearch-Plus와 같은 어려운 장기 검색 벤치마크에서 오픈 소스 모델 중 최고 성능을 달성하는 동시에 다양한 기본 모델에 대한 강력한 일반화 성능을 보였습니다. 당사의 코드는 https://github.com/RUCAIBox/LMM-Searcher 에서 공개될 예정입니다.

Original Abstract

Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.

0 Citations
0 Influential
48.722612188617 Altmetric
243.6 Score
Original PDF
20

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!