O-Researcher: 멀티 에이전트 증류 및 에이전트 기반 강화 학습을 통한 개방형 심층 연구 모델
O-Researcher: An Open Ended Deep Research Model via Multi-Agent Distillation and Agentic RL
폐쇄형 소스 대규모 언어 모델(LLM)과 개방형 소스 LLM 간의 성능 차이는 주로 고품질 학습 데이터에 대한 접근성의 차이에서 비롯됩니다. 이러한 격차를 해소하기 위해, 우리는 고급 연구 수준의 교육 데이터 자동 생성이라는 새로운 프레임워크를 소개합니다. 저희의 접근 방식은 협업 AI 에이전트들이 복잡한 도구 통합 추론을 시뮬레이션하여 다양한 고품질 데이터를 처음부터 끝까지 생성하는 멀티 에이전트 워크플로우를 중심으로 합니다. 이렇게 생성된 데이터를 활용하여, 우리는 두 단계의 학습 전략을 개발했습니다. 이 전략은 지도 학습을 정교한 강화 학습 방법과 통합하여 모델의 정렬성과 능력을 극대화하도록 설계되었습니다. 광범위한 실험 결과, 저희의 프레임워크는 다양한 규모의 개방형 소스 모델에 적용되어 주요 심층 연구 벤치마크에서 새로운 최고 성능을 달성할 수 있음을 보여줍니다. 이 연구는 독점적인 데이터나 모델에 의존하지 않고 개방형 소스 LLM을 발전시키는 확장 가능하고 효과적인 방법을 제공합니다.
The performance gap between closed-source and open-source large language models (LLMs) is largely attributed to disparities in access to high-quality training data. To bridge this gap, we introduce a novel framework for the automated synthesis of sophisticated, research-grade instructional data. Our approach centers on a multi-agent workflow where collaborative AI agents simulate complex tool-integrated reasoning to generate diverse and high-fidelity data end-to-end. Leveraging this synthesized data, we develop a two-stage training strategy that integrates supervised fine-tuning with a novel reinforcement learning method, designed to maximize model alignment and capability. Extensive experiments demonstrate that our framework empowers open-source models across multiple scales, enabling them to achieve new state-of-the-art performance on the major deep research benchmark. This work provides a scalable and effective pathway for advancing open-source LLMs without relying on proprietary data or models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.