2602.06540v1 Feb 06, 2026 cs.AI

AgentCPM-Report: 개방형 심층 연구를 위한 초안 작성과 심화 과정의 교차 수행

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

Ya-Ting Lu
Ya-Ting Lu
Citations: 2,387
h-index: 10
Yankai Lin
Yankai Lin
Citations: 146
h-index: 7
Yishan Li
Yishan Li
Citations: 1
h-index: 1
Xiaorong Wang
Xiaorong Wang
Citations: 40
h-index: 2
Maosong Sun
Maosong Sun
Citations: 156
h-index: 6
Zhong Zhang
Zhong Zhang
Citations: 23
h-index: 2
Wentong Chen
Wentong Chen
Citations: 367
h-index: 4
Yukun Yan
Yukun Yan
Citations: 588
h-index: 11
Mingwei Li
Mingwei Li
Citations: 35
h-index: 2
Senkun Mei
Senkun Mei
Citations: 104
h-index: 3
Kunpeng Liu
Kunpeng Liu
Citations: 64
h-index: 5
X. Cong
X. Cong
Citations: 3,140
h-index: 15
Shuo Wang
Shuo Wang
Citations: 890
h-index: 11
Zhenghao Liu
Zhenghao Liu
Citations: 165
h-index: 8
Zhiyuan Liu
Zhiyuan Liu
Citations: 504
h-index: 9

심층 연구 보고서를 생성하려면 대규모 정보 수집과 통찰력 기반 분석의 통합이 필요하며, 이는 현재 언어 모델에 있어 중요한 과제입니다. 기존의 대부분 접근 방식은 계획 후 작성(plan-then-write) 패러다임을 따르는데, 이 성능은 초기 개요의 품질에 크게 의존합니다. 그러나 포괄적인 개요를 작성하는 것 자체에도 강력한 추론 능력이 요구되므로, 현재의 심층 연구 시스템은 거의 전적으로 폐쇄형 소스(closed-source) 또는 온라인 대형 모델에 의존하게 됩니다. 이러한 의존성은 배포에 있어 실질적인 장벽이 되며, 사용자 데이터에 대한 안전 및 개인정보 보호 문제를 야기합니다. 본 연구에서는 인간의 글쓰기 과정을 모방한 프레임워크와 80억(8B) 파라미터 규모의 심층 연구 에이전트로 구성된, 경량화되면서도 고성능인 로컬 솔루션 AgentCPM-Report를 제안합니다. 우리의 프레임워크는 WARP(Writing As Reasoning Policy)를 사용하여 모델이 보고서 생성 중에 개요를 동적으로 수정할 수 있도록 합니다. 이 정책 하에서 에이전트는 '증거 기반 초안 작성'과 '추론 주도 심화' 과정을 번갈아 수행하며, 정보 수집, 지식 정제, 반복적인 개요 발전을 지원합니다. 소형 모델에 이러한 기능을 효과적으로 탑재하기 위해, 콜드 스타트, 원자적 기술 강화 학습(RL), 전체 파이프라인 강화 학습으로 구성된 다단계 에이전트 훈련 전략을 도입합니다. DeepResearch Bench, DeepConsult, DeepResearch Gym에서의 실험 결과, AgentCPM-Report는 주요 폐쇄형 소스 시스템을 능가하며, 특히 통찰력 측면에서 상당한 성능 향상을 입증했습니다.

Original Abstract

Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!