2604.17931v1 Apr 20, 2026 cs.AI

LiteResearcher: 심층 연구 에이전트를 위한 확장 가능한 에이전트 기반 강화 학습 훈련 프레임워크

LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent

Zheng Liu
Zheng Liu
Citations: 95
h-index: 4
Wanli Li
Wanli Li
Citations: 308
h-index: 3
Bince Qu
Bince Qu
Citations: 0
h-index: 0
Bo Pan
Bo Pan
Citations: 125
h-index: 6
Jianyu Zhang
Jianyu Zhang
Citations: 30
h-index: 3
Pan Zhang
Pan Zhang
Citations: 7
h-index: 2
Bo Zhang
Bo Zhang
Citations: 329
h-index: 3
Wei Chen
Wei Chen
Citations: 3
h-index: 1

강화 학습(RL)은 LLM 기반 에이전트 훈련을 위한 강력한 패러다임으로 부상했습니다. 그러나 심층 연구를 위한 에이전트 기반 RL의 확장은 다음과 같은 두 가지 상호 연관된 문제로 인해 제한됩니다. 수작업으로 생성된 합성 데이터는 실제 검색 능력을 제대로 이끌어내지 못하고, RL 훈련 과정에서 발생하는 실제 검색 의존성은 불안정성을 야기하고 비용을 증가시켜 에이전트 기반 RL의 확장성을 제한합니다. LiteResearcher는 에이전트 기반 RL의 확장성을 가능하게 하는 훈련 프레임워크입니다. 실제 검색 역학을 반영하는 경량화된 가상 세계를 구축함으로써, 지속적으로 개선되는 훈련 방식을 통해 작은 검색 에이전트가 대규모 오픈 소스 및 상용 모델(예: Tongyi DeepResearch 및 Claude-4.5 Sonnet)보다 뛰어난 성능을 발휘하도록 합니다. 특히, GAIA 및 Xbench와 같은 일반적인 벤치마크에서, 우리의 LiteResearcher-4B 모델은 각각 71.3%와 78.0%의 오픈 소스 최고 성능을 달성하여, 확장 가능한 RL 훈련이 심층 연구 에이전트를 위한 핵심적인 요소임을 보여줍니다.

Original Abstract

Reinforcement Learning (RL) has emerged as a powerful training paradigm for LLM-based agents. However, scaling agentic RL for deep research remains constrained by two coupled challenges: hand-crafted synthetic data fails to elicit genuine real-world search capabilities, and real-world search dependency during RL training introduces instability and prohibitive cost, which limits the scalability of Agentic RL. LiteResearcher is a training framework that makes Agentic RL scalable: by constructing a lite virtual world that mirrors real-world search dynamics, we enable a continuously improving training recipe that empowers a tiny search agent to outperform large-scale open-source and commercial models (e.g., Tongyi DeepResearch and Claude-4.5 Sonnet). Specifically, on common benchmarks such as GAIA and Xbench, our LiteResearcher-4B achieves open-source state-of-the-art results of 71.3% and 78.0% respectively, demonstrating that scalable RL training is a key enabler for Deep Research Agents.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!