OffSeeker: 심층 연구 에이전트에 온라인 강화 학습이 전부는 아니다
OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents
심층 연구 에이전트는 장기적 과제를 처리하는 데 있어 놀라운 잠재력을 보여주었다. 그러나 최신 기술 수준의 성능은 대개 온라인 강화 학습(RL)에 의존하는데, 이는 방대한 API 호출로 인해 금전적 비용이 많이 든다. 오프라인 훈련이 더 효율적인 대안을 제공하지만, 고품질 연구 궤적(trajectory) 데이터의 부족으로 인해 그 발전이 저해되고 있다. 본 논문에서는 강력한 연구 에이전트를 구축하기 위해 비용이 많이 드는 온라인 강화 학습이 반드시 필요한 것은 아님을 입증한다. 이러한 격차를 해소하기 위해, 우리는 효과적인 오프라인 훈련을 위해 설계된 완전 오픈 소스 제품군을 소개한다. 우리의 핵심 기여에는 복잡한 전처리 없이 대규모 연구 질의를 생성하는 즉시 사용 가능한 작업 합성 프레임워크인 DeepForge와, 엄선된 66k개의 QA 쌍, 33k개의 SFT 궤적, 21k개의 DPO 쌍 컬렉션이 포함된다. 이러한 자원을 활용하여 우리는 전적으로 오프라인에서 개발된 모델인 OffSeeker(8B)를 훈련했다. 6개 벤치마크에 걸친 광범위한 평가 결과, OffSeeker는 비슷한 크기의 에이전트들 중에서 선두를 달릴 뿐만 아니라, 대규모 온라인 RL을 통해 훈련된 30B 파라미터 시스템과 비교해도 경쟁력을 갖추고 있음을 보여준다.
Deep research agents have shown remarkable potential in handling long-horizon tasks. However, state-of-the-art performance typically relies on online reinforcement learning (RL), which is financially expensive due to extensive API calls. While offline training offers a more efficient alternative, its progress is hindered by the scarcity of high-quality research trajectories. In this paper, we demonstrate that expensive online reinforcement learning is not all you need to build powerful research agents. To bridge this gap, we introduce a fully open-source suite designed for effective offline training. Our core contributions include DeepForge, a ready-to-use task synthesis framework that generates large-scale research queries without heavy preprocessing; and a curated collection of 66k QA pairs, 33k SFT trajectories, and 21k DPO pairs. Leveraging these resources, we train OffSeeker (8B), a model developed entirely offline. Extensive evaluations across six benchmarks show that OffSeeker not only leads among similar-sized agents but also remains competitive with 30B-parameter systems trained via heavy online RL.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.