OpenSeeker-v2: 정보적이고 고난이도의 경로를 활용하여 검색 에이전트의 성능 한계를 뛰어넘다
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
심층적인 검색 능력은 최첨단 대규모 언어 모델(LLM) 에이전트에게 필수적인 역량이지만, 이러한 에이전트의 개발은 여전히 주로 대기업이 주도하고 있습니다. 일반적인 산업적 방법은 사전 훈련, 지속적인 사전 훈련(CPT), 지도 학습(SFT) 및 강화 학습(RL)을 포함하는 매우 많은 자원을 필요로 하는 파이프라인입니다. 본 연구에서는 정보적이고 고난이도의 경로를 활용하면 간단한 SFT(지도 학습) 접근 방식이 최첨단 검색 에이전트 훈련에 놀랍도록 강력한 효과를 발휘할 수 있음을 보여줍니다. 지식 그래프 크기 조정, 도구 세트 크기 확장, 그리고 엄격한 단계 필터링이라는 세 가지 간단한 데이터 합성 방법을 도입하여 더욱 강력한 기준 성능을 확립했습니다. 단 10,600개의 데이터 포인트로 훈련된 OpenSeeker-v2는 4개의 벤치마크에서 최첨단 성능을 달성했습니다 (ReAct 패러다임을 사용하는 30B 규모의 에이전트): BrowseComp에서 46.0%, BrowseComp-ZH에서 58.1%, Humanity's Last Exam에서 34.6%, xbench에서 78.0%. 이는 CPT+SFT+RL 파이프라인으로 훈련된 Tongyi DeepResearch의 성능(각각 43.4%, 46.7%, 32.9%, 75.0%)을 능가합니다. 특히, OpenSeeker-v2는 동일한 모델 규모와 패러다임 내에서 SFT만 사용하여 개발된 최초의 최첨단 검색 에이전트입니다. 저희는 OpenSeeker-v2 모델 가중치를 공개하고, 간단하지만 효과적인 연구 결과를 공유하여 최첨단 검색 에이전트 연구를 커뮤니티에 더욱 쉽게 제공하고자 합니다.
Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet their development remains dominated by industrial giants. The typical industry recipe involves a highly resource-intensive pipeline spanning pre-training, continual pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL). In this report, we show that when fueled with informative and high-difficulty trajectories, a simple SFT approach could be surprisingly powerful for training frontier search agents. By introducing three simple data synthesis modifications: scaling knowledge graph size for richer exploration, expanding the tool set size for broader functionality, and strict low-step filtering, we establish a stronger baseline. Trained on merely 10.6k data points, our OpenSeeker-v2 achieves state-of-the-art performance across 4 benchmarks (30B-sized agents with ReAct paradigm): 46.0% on BrowseComp, 58.1% on BrowseComp-ZH, 34.6% on Humanity's Last Exam, and 78.0% on xbench, surpassing even Tongyi DeepResearch trained with heavy CPT+SFT+RL pipeline, which achieves 43.4%, 46.7%, 32.9%, and 75.0%, respectively. Notably, OpenSeeker-v2 represents the first state-of-the-art search agent within its model scale and paradigm to be developed by a purely academic team using only SFT. We are excited to open-source the OpenSeeker-v2 model weights and share our simple yet effective findings to make frontier search agent research more accessible to the community.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.