모놀리식 아키텍처를 넘어: 에이전트 검색을 위한 멀티 에이전트 검색 및 지식 최적화 프레임워크
Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search
에이전트 검색(Agentic search)은 대형 언어 모델(LLM)이 추론과 도구 사용을 번갈아 수행할 수 있게 함으로써 복잡한 정보 탐색을 위한 유망한 패러다임으로 부상했습니다. 그러나 기존 시스템들은 궤적을 부풀리는 제약 없는 추론 출력, 기여도 할당(credit assignment)을 복잡하게 만드는 희소한 결과 수준 보상, 그리고 학습을 불안정하게 만드는 확률적 검색 노이즈와 같은 구조적 병목 현상을 겪는 모놀리식 에이전트에 의존하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 에이전트 검색을 상호 보완적인 두 가지 역할, 즉 검색 작업을 계획하고 실행하는 '검색 행동 에이전트(Search Behavior Agents)'와 간결한 내부 문맥을 집계, 필터링 및 유지 관리하는 '지식 관리 에이전트(Knowledge Management Agents)'로 명시적으로 분리하는 프레임워크인 M-ASK(Multi-Agent Search and Knowledge)를 제안합니다. 이러한 분해를 통해 각 에이전트는 잘 정의된 하위 작업에 집중할 수 있으며 검색과 문맥 구성 간의 간섭을 줄일 수 있습니다. 또한 안정적인 조정을 가능하게 하기 위해 M-ASK는 턴(turn) 수준의 보상을 사용하여 검색 결정과 지식 업데이트 모두에 대해 세밀한 감독을 제공합니다. 멀티 홉 QA 벤치마크에 대한 실험 결과, M-ASK는 강력한 베이스라인 모델들을 능가하며, 더 우수한 답변 정확도뿐만 아니라 훨씬 더 안정적인 학습 동적 특성을 달성함을 입증했습니다. M-ASK의 소스 코드는 https://github.com/chenyiqun/M-ASK 에서 확인할 수 있습니다.
Agentic search has emerged as a promising paradigm for complex information seeking by enabling Large Language Models (LLMs) to interleave reasoning with tool use. However, prevailing systems rely on monolithic agents that suffer from structural bottlenecks, including unconstrained reasoning outputs that inflate trajectories, sparse outcome-level rewards that complicate credit assignment, and stochastic search noise that destabilizes learning. To address these challenges, we propose \textbf{M-ASK} (Multi-Agent Search and Knowledge), a framework that explicitly decouples agentic search into two complementary roles: Search Behavior Agents, which plan and execute search actions, and Knowledge Management Agents, which aggregate, filter, and maintain a compact internal context. This decomposition allows each agent to focus on a well-defined subtask and reduces interference between search and context construction. Furthermore, to enable stable coordination, M-ASK employs turn-level rewards to provide granular supervision for both search decisions and knowledge updates. Experiments on multi-hop QA benchmarks demonstrate that M-ASK outperforms strong baselines, achieving not only superior answer accuracy but also significantly more stable training dynamics.\footnote{The source code for M-ASK is available at https://github.com/chenyiqun/M-ASK.}
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.