LiteResearcher: 심층 연구 에이전트를 위한 확장 가능한 에이전트 기반 강화 학습 훈련 프레임워크
LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent
강화 학습(RL)은 LLM 기반 에이전트 훈련을 위한 강력한 패러다임으로 부상했습니다. 그러나 심층 연구를 위한 에이전트 기반 RL의 확장은 다음과 같은 두 가지 상호 연관된 문제로 인해 제한됩니다. 수작업으로 생성된 합성 데이터는 실제 검색 능력을 제대로 이끌어내지 못하고, RL 훈련 과정에서 발생하는 실제 검색 의존성은 불안정성을 야기하고 비용을 증가시켜 에이전트 기반 RL의 확장성을 제한합니다. LiteResearcher는 에이전트 기반 RL의 확장성을 가능하게 하는 훈련 프레임워크입니다. 실제 검색 역학을 반영하는 경량화된 가상 세계를 구축함으로써, 지속적으로 개선되는 훈련 방식을 통해 작은 검색 에이전트가 대규모 오픈 소스 및 상용 모델(예: Tongyi DeepResearch 및 Claude-4.5 Sonnet)보다 뛰어난 성능을 발휘하도록 합니다. 특히, GAIA 및 Xbench와 같은 일반적인 벤치마크에서, 우리의 LiteResearcher-4B 모델은 각각 71.3%와 78.0%의 오픈 소스 최고 성능을 달성하여, 확장 가능한 RL 훈련이 심층 연구 에이전트를 위한 핵심적인 요소임을 보여줍니다.
Reinforcement Learning (RL) has emerged as a powerful training paradigm for LLM-based agents. However, scaling agentic RL for deep research remains constrained by two coupled challenges: hand-crafted synthetic data fails to elicit genuine real-world search capabilities, and real-world search dependency during RL training introduces instability and prohibitive cost, which limits the scalability of Agentic RL. LiteResearcher is a training framework that makes Agentic RL scalable: by constructing a lite virtual world that mirrors real-world search dynamics, we enable a continuously improving training recipe that empowers a tiny search agent to outperform large-scale open-source and commercial models (e.g., Tongyi DeepResearch and Claude-4.5 Sonnet). Specifically, on common benchmarks such as GAIA and Xbench, our LiteResearcher-4B achieves open-source state-of-the-art results of 71.3% and 78.0% respectively, demonstrating that scalable RL training is a key enabler for Deep Research Agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.