COSEARCH: 강화 학습을 이용한 추론 및 문서 순위 매김의 공동 훈련을 통한 에이전트 기반 검색
COSEARCH: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search
에이전트 기반 검색은 강화 학습(RL)을 통해 상당한 발전을 이루어 왔습니다. 에이전트 기반 검색은 반복적으로 추론하고, 쿼리를 생성하며, 검색된 정보를 종합하여 복잡한 질문에 답변하는 작업을 수행하는 것을 목표로 합니다. 그러나 Search-R1과 같은 기존 방식은 검색 시스템을 고정된 도구로 취급하며, 추론 에이전트만 최적화하고 검색 구성 요소는 변경하지 않습니다. 예비 실험 결과, 오라클 시스템과 고정된 검색 시스템 간의 상대적인 F1 점수 차이가 7개의 질의응답 벤치마크에서 최대 +26.8%까지 나타났습니다. 이는 검색 시스템이 에이전트 기반 검색 성능을 향상시키는 데 중요한 병목 현상임을 시사합니다. 이러한 사실에 착안하여, 우리는 Group Relative Policy Optimization (GRPO)을 통해 다단계 추론 에이전트와 생성적 문서 순위 매김 모델을 공동으로 훈련하는 프레임워크인 CoSearch를 제안합니다. 순위 매김 모델의 입력이 추론 경로에 따라 달라지므로, 효과적인 GRPO 훈련을 위해 토큰 수준의 유사성을 기반으로 하위 쿼리를 클러스터링하여 추가적인 시뮬레이션 없이 유효한 최적화 그룹을 형성하는 의미론적 그룹화 전략을 도입했습니다. 또한, 순위 매김 품질 신호와 경로 수준의 결과 피드백을 결합한 복합 보상을 설계하여, 순위 매김 모델이 즉각적인 피드백과 장기적인 학습 신호를 모두 얻을 수 있도록 했습니다. 7개의 단일 홉 및 다중 홉 질의응답 벤치마크에 대한 실험 결과, 강력한 기본 모델보다 일관되게 성능이 향상되었으며, 각 설계 요소에 대한 분석 연구를 통해 각 선택 사항의 유효성이 검증되었습니다. 우리의 결과는 추론 에이전트와 검색 시스템의 공동 훈련이 실현 가능하며, 높은 성능을 보인다는 것을 보여주며, 이는 향후 검색 에이전트 개발의 중요한 요소가 될 것입니다.
Agentic search -- the task of training agents that iteratively reason, issue queries, and synthesize retrieved information to answer complex questions -- has achieved remarkable progress through reinforcement learning (RL). However, existing approaches such as Search-R1, treat the retrieval system as a fixed tool, optimizing only the reasoning agent while the retrieval component remains unchanged. A preliminary experiment reveals that the gap between an oracle and a fixed retrieval system reaches up to +26.8% relative F1 improvement across seven QA benchmarks, suggesting that the retrieval system is a key bottleneck in scaling agentic search performance. Motivated by this finding, we propose CoSearch, a framework that jointly trains a multi-step reasoning agent and a generative document ranking model via Group Relative Policy Optimization (GRPO). To enable effective GRPO training for the ranker -- whose inputs vary across reasoning trajectories -- we introduce a semantic grouping strategy that clusters sub-queries by token-level similarity, forming valid optimization groups without additional rollouts. We further design a composite reward combining ranking quality signals with trajectory-level outcome feedback, providing the ranker with both immediate and long-term learning signals. Experiments on seven single-hop and multi-hop QA benchmarks demonstrate consistent improvements over strong baselines, with ablation studies validating each design choice. Our results show that joint training of the reasoning agent and retrieval system is both feasible and strongly performant, pointing to a key ingredient for future search agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.