2602.19000v1 Feb 22, 2026 cs.AI

MagicAgent: 일반화된 에이전트 플래닝을 향하여

MagicAgent: Towards Generalized Agent Planning

Xuhui Ren
Xuhui Ren
Citations: 162
h-index: 3
Yongsheng Liu
Yongsheng Liu
Citations: 18
h-index: 2
Xin Geng
Xin Geng
Citations: 5
h-index: 2
Demei Yan
Demei Yan
Citations: 2
h-index: 1
Yanqing Li
Yanqing Li
Citations: 0
h-index: 0
Chenhao Huang
Chenhao Huang
Citations: 28
h-index: 4
Junjie Ye
Junjie Ye
Fudan University
Citations: 1,361
h-index: 15
Bo Yue
Bo Yue
Citations: 10
h-index: 2
Yi Fu
Yi Fu
Citations: 1
h-index: 1
Meng Lv
Meng Lv
Citations: 5
h-index: 2
Ze Feng
Ze Feng
Citations: 187
h-index: 3
Bo Zhou
Bo Zhou
Citations: 3
h-index: 1
Bo Wang
Bo Wang
Citations: 24
h-index: 2
Xuanjing Huang
Xuanjing Huang
Citations: 499
h-index: 13
Yu-Gang Jiang
Yu-Gang Jiang
Citations: 627
h-index: 9
Tao Gui
Tao Gui
Citations: 286
h-index: 4
Yunke Zhang
Yunke Zhang
Citations: 27
h-index: 3
Qingying Gao
Qingying Gao
Citations: 69
h-index: 5
Cheng Yang
Cheng Yang
Citations: 185
h-index: 7
Shaokang Dong
Shaokang Dong
Citations: 12
h-index: 1
Yunbin Zhao
Yunbin Zhao
Citations: 0
h-index: 0
Xiang Li
Xiang Li
Citations: 20
h-index: 3
Dingwei Zhu
Dingwei Zhu
Citations: 4
h-index: 1
Qi Zhang
Qi Zhang
Citations: 79
h-index: 3

대형 언어 모델(LLM)이 수동적인 텍스트 처리기에서 자율 에이전트로 진화함에 따라, 계획 수립(planning)은 현대 지능의 핵심 구성 요소로 자리 잡았다. 그러나 고품질 상호작용 데이터의 부족뿐만 아니라 이질적인 플래닝 작업 간의 내재적 충돌로 인해 일반화된 플래닝을 달성하는 것은 여전히 어려운 과제로 남아 있다. 이러한 문제들로 인해 모델들은 개별 고립된 작업에서는 뛰어난 성능을 보이지만 일반화에는 어려움을 겪으며, 기존의 다중 작업 훈련 시도들은 기울기 간섭(gradient interference) 문제를 겪는다. 본 논문에서는 일반화된 에이전트 플래닝을 위해 특별히 설계된 파운데이션 모델 시리즈인 MagicAgent를 제시한다. 우리는 계층적 작업 분해, 도구 증강 플래닝, 다중 제약 스케줄링, 절차적 논리 오케스트레이션, 그리고 장기(long-horizon) 도구 실행을 포함한 다양한 플래닝 작업에 걸쳐 고품질 궤적을 생성하는 가볍고 확장 가능한 합성 데이터 프레임워크를 도입한다. 훈련 충돌을 완화하기 위해, 우리는 정적 데이터셋과 동적 환경 모두에 대해 지도 미세 조정(supervised fine-tuning)을 진행한 후 다중 목적 강화 학습을 수행하는 2단계 훈련 패러다임을 제안한다. 실험 결과에 따르면 MagicAgent-32B와 MagicAgent-30B-A3B는 Worfbench에서 75.1%, NaturalPlan에서 55.9%, τ²-Bench에서 57.5%, BFCL-v3에서 86.9%, ACEBench에서 81.2%의 정확도를 달성할 뿐만 아니라 자체 MagicEval 벤치마크에서도 강력한 결과를 보여줌으로써 우수한 성능을 입증했다. 이러한 결과는 매개변수 100B 미만의 기존 모델들을 크게 능가하며, 선도적인 비공개 소스(closed-source) 모델들조차 뛰어넘는 성과이다.

Original Abstract

The evolution of Large Language Models (LLMs) from passive text processors to autonomous agents has established planning as a core component of modern intelligence. However, achieving generalized planning remains elusive, not only by the scarcity of high-quality interaction data but also by inherent conflicts across heterogeneous planning tasks. These challenges result in models that excel at isolated tasks yet struggle to generalize, while existing multi-task training attempts suffer from gradient interference. In this paper, we present \textbf{MagicAgent}, a series of foundation models specifically designed for generalized agent planning. We introduce a lightweight and scalable synthetic data framework that generates high-quality trajectories across diverse planning tasks, including hierarchical task decomposition, tool-augmented planning, multi-constraint scheduling, procedural logic orchestration, and long-horizon tool execution. To mitigate training conflicts, we propose a two-stage training paradigm comprising supervised fine-tuning followed by multi-objective reinforcement learning over both static datasets and dynamic environments. Empirical results demonstrate that MagicAgent-32B and MagicAgent-30B-A3B deliver superior performance, achieving accuracies of $75.1\%$ on Worfbench, $55.9\%$ on NaturalPlan, $57.5\%$ on $τ^2$-Bench, $86.9\%$ on BFCL-v3, and $81.2\%$ on ACEBench, as well as strong results on our in-house MagicEval benchmarks. These results substantially outperform existing sub-100B models and even surpass leading closed-source models.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!