2602.06485v1 Feb 06, 2026 cs.AI

AgentCPM-Explore: 엣지 스케일 에이전트를 위한 장기 심층 탐색 실현

AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents

Ya-Ting Lu
Ya-Ting Lu
Citations: 2,387
h-index: 10
Haotian Chen
Haotian Chen
Citations: 72
h-index: 3
Yankai Lin
Yankai Lin
Citations: 146
h-index: 7
Yishan Li
Yishan Li
Citations: 1
h-index: 1
Maosong Sun
Maosong Sun
Citations: 156
h-index: 6
Zhong Zhang
Zhong Zhang
Citations: 23
h-index: 2
Yukun Yan
Yukun Yan
Citations: 588
h-index: 11
X. Cong
X. Cong
Citations: 3,140
h-index: 15
Zhiyuan Liu
Zhiyuan Liu
Citations: 504
h-index: 9
Shengda Fan
Shengda Fan
Citations: 46
h-index: 2
Ziqi Gong
Ziqi Gong
Citations: 2
h-index: 1
Bo Niu
Bo Niu
Citations: 5
h-index: 1
Zijun Song
Zijun Song
Citations: 37
h-index: 2
Huadong Wang
Huadong Wang
Citations: 8
h-index: 1
Yesai Wu
Yesai Wu
Citations: 254
h-index: 8
Yue Wu
Yue Wu
Citations: 86
h-index: 5
Zihao Xie
Zihao Xie
Citations: 252
h-index: 5
Yu Fu
Yu Fu
Citations: 131
h-index: 4
Chengjun Pan
Chengjun Pan
Citations: 5
h-index: 1

대규모 언어 모델(LLM) 기반 에이전트가 복잡한 작업을 해결하는 데 있어 놀라운 잠재력을 보여주었지만, 기존 시스템은 여전히 대규모 모델에 크게 의존하고 있어 엣지 스케일 모델의 기능은 대체로 충분히 탐구되지 않은 상태입니다. 본 논문에서는 40억(4B) 파라미터 규모에서 에이전트 모델을 학습시키는 것에 대한 최초의 체계적인 연구를 제시합니다. 우리는 엣지 스케일 모델의 성능을 저해하는 세 가지 주요 병목 현상으로 지도 미세 조정(SFT) 중 발생하는 파국적 망각, 강화 학습(RL) 중 보상 신호 잡음에 대한 민감성, 그리고 긴 문맥 시나리오에서 불필요한 정보로 인한 추론 능력 저하를 파악했습니다. 이러한 문제를 해결하기 위해, 우리는 높은 지식 밀도와 강력한 탐색 능력을 갖춘 소형 4B 에이전트 모델인 AgentCPM-Explore를 제안합니다. 우리는 파라미터 공간 모델 융합, 보상 신호 잡음 제거, 문맥 정보 정제를 특징으로 하는 포괄적인 학습 프레임워크를 소개합니다. 심층 탐색을 통해 AgentCPM-Explore는 4B급 모델 중 최고 성능(SOTA)을 달성했으며, 4개의 벤치마크에서 8B급 SOTA 모델과 대등하거나 이를 능가하고, 5개의 벤치마크에서는 Claude-4.5-Sonnet이나 DeepSeek-v3.2와 같은 더 큰 규모의 모델보다 뛰어난 성능을 보였습니다. 특히, AgentCPM-Explore는 pass@64 기준 GAIA 텍스트 기반 작업에서 97.09%의 정확도를 달성했습니다. 이러한 결과는 엣지 스케일 모델의 병목 현상이 내재된 능력의 한계가 아니라 추론 안정성에 있다는 강력한 증거를 제공합니다. 우리의 탄탄한 학습 프레임워크를 기반으로, AgentCPM-Explore는 이전에는 과소평가되었던 엣지 스케일 모델의 상당한 잠재력을 효과적으로 이끌어냅니다.

Original Abstract

While Large Language Model (LLM)-based agents have shown remarkable potential for solving complex tasks, existing systems remain heavily reliant on large-scale models, leaving the capabilities of edge-scale models largely underexplored. In this paper, we present the first systematic study on training agentic models at the 4B-parameter scale. We identify three primary bottlenecks hindering the performance of edge-scale models: catastrophic forgetting during Supervised Fine-Tuning (SFT), sensitivity to reward signal noise during Reinforcement Learning (RL), and reasoning degradation caused by redundant information in long-context scenarios. To address the issues, we propose AgentCPM-Explore, a compact 4B agent model with high knowledge density and strong exploration capability. We introduce a holistic training framework featuring parameter-space model fusion, reward signal denoising, and contextual information refinement. Through deep exploration, AgentCPM-Explore achieves state-of-the-art (SOTA) performance among 4B-class models, matches or surpasses 8B-class SOTA models on four benchmarks, and even outperforms larger-scale models such as Claude-4.5-Sonnet or DeepSeek-v3.2 in five benchmarks. Notably, AgentCPM-Explore achieves 97.09% accuracy on GAIA text-based tasks under pass@64. These results provide compelling evidence that the bottleneck for edge-scale models is not their inherent capability ceiling, but rather their inference stability. Based on our well-established training framework, AgentCPM-Explore effectively unlocks the significant, yet previously underestimated, potential of edge-scale models.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!