REDSearcher: 장기 탐색 에이전트를 위한 확장 가능하고 비용 효율적인 프레임워크
REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
대규모 언어 모델은 범용 지식 엔진에서 실제 문제 해결사로 전환되고 있지만, 심층 탐색 작업을 위해 이를 최적화하는 것은 여전히 어려운 과제입니다. 핵심 병목 현상은 확장 가능한 장기 작업 구성의 어려움과 외부 도구 호출을 포함한 상호작용 중심 롤아웃의 높은 비용으로 인해 발생하는 고품질 탐색 궤적 및 보상 신호의 극심한 희소성에 있습니다. 이러한 문제를 해결하기 위해, 우리는 확장 가능한 탐색 에이전트 최적화를 위해 복잡한 작업 합성, 중간 훈련, 사후 훈련을 공동 설계하는 통합 프레임워크인 REDSearcher를 제안합니다. 구체적으로 REDSearcher는 다음과 같은 개선 사항을 도입합니다: (1) 작업 합성을 이중 제약 최적화로 설정하여, 그래프 위상과 증거 분산에 의해 작업 난이도를 정밀하게 제어함으로써 복잡하고 고품질인 작업을 확장 가능하게 생성할 수 있도록 합니다. (2) 수동적인 지식 회상보다는 능동적인 도구 사용을 장려하기 위해 도구 증강 쿼리를 도입합니다. (3) 중간 훈련 과정에서 핵심 원자 능력(지식, 계획, 함수 호출)을 강화하여 다운스트림 훈련을 위한 고품질 궤적 수집 비용을 크게 절감합니다. (4) 강화 학습 실험을 위해 빠르고 저렴한 알고리즘 반복을 가능하게 하는 로컬 시뮬레이션 환경을 구축합니다. 텍스트 전용 및 멀티모달 탐색 에이전트 벤치마크 모두에서 우리의 접근 방식은 최첨단 성능을 달성했습니다. 장기 탐색 에이전트에 대한 향후 연구를 촉진하기 위해, 우리는 1만 개의 고품질 복합 텍스트 탐색 궤적, 5천 개의 멀티모달 궤적, 1천 개의 텍스트 RL 쿼리 세트를 코드 및 모델 체크포인트와 함께 공개할 예정입니다.
Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.