2601.18467v2 Jan 26, 2026 cs.AI

OffSeeker: 온라인 강화 학습만으로는 심층 연구 에이전트를 구축하는 데 충분하지 않다

OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents

Yuhang Zhou
Yuhang Zhou
Citations: 413
h-index: 4
Kai Zheng
Kai Zheng
Citations: 46
h-index: 3
Qiguang Chen
Qiguang Chen
Citations: 102
h-index: 2
Mengkang Hu
Mengkang Hu
Citations: 146
h-index: 4
Qingfeng Sun
Qingfeng Sun
Citations: 19
h-index: 2
Can Xu
Can Xu
Citations: 81
h-index: 3
Jingjing Chen
Jingjing Chen
Citations: 2,043
h-index: 3

심층 연구 에이전트는 장기적인 과제를 처리하는 데 놀라운 잠재력을 보여주었습니다. 그러나 최첨단 성능은 일반적으로 API 호출이 많아 재정적으로 비용이 많이 드는 온라인 강화 학습(RL)에 의존합니다. 오프라인 학습은 더 효율적인 대안을 제공하지만, 고품질 연구 데이터의 부족으로 인해 발전이 제한적입니다. 본 논문에서는 강력한 연구 에이전트를 구축하는 데 비싼 온라인 강화 학습만으로는 충분하지 않다는 것을 보여줍니다. 이러한 격차를 해소하기 위해, 효과적인 오프라인 학습을 위한 완전한 오픈 소스 도구 모음을 소개합니다. 우리의 주요 기여는 다음과 같습니다. 첫째, DeepForge는 대규모 연구 쿼리를 생성하는 데 사용하기 쉬운 작업 합성 프레임워크이며, 상당한 전처리 없이도 활용 가능합니다. 둘째, 66,000개의 질의응답 쌍, 33,000개의 SFT(Supervised Fine-Tuning) 트레이jectory, 그리고 21,000개의 DPO(Direct Preference Optimization) 쌍으로 구성된 큐레이션된 데이터셋입니다. 이러한 자원을 활용하여, 저희는 오프라인으로 완전히 학습된 80억 개의 파라미터를 가진 모델인 OffSeeker를 개발했습니다. 여섯 가지 벤치마크에 대한 광범위한 실험 결과, OffSeeker는 유사한 크기의 다른 에이전트 중에서 가장 우수한 성능을 보일 뿐만 아니라, 많은 온라인 RL을 통해 학습된 300억 개의 파라미터를 가진 시스템과도 경쟁력이 있음을 확인했습니다.

Original Abstract

Deep research agents have shown remarkable potential in handling long-horizon tasks. However, state-of-the-art performance typically relies on online reinforcement learning (RL), which is financially expensive due to extensive API calls. While offline training offers a more efficient alternative, its progress is hindered by the scarcity of high-quality research trajectories. In this paper, we demonstrate that expensive online reinforcement learning is not all you need to build powerful research agents. To bridge this gap, we introduce a fully open-source suite designed for effective offline training. Our core contributions include DeepForge, a ready-to-use task synthesis framework that generates large-scale research queries without heavy preprocessing; and a curated collection of 66k QA pairs, 33k SFT trajectories, and 21k DPO pairs. Leveraging these resources, we train OffSeeker (8B), a model developed entirely offline. Extensive evaluations across six benchmarks show that OffSeeker not only leads among similar-sized agents but also remains competitive with 30B-parameter systems trained via heavy online RL.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!