MetaAgent-X: 엔드-투-엔드 강화 학습을 통한 자동 멀티 에이전트 시스템의 성능 한계 극복
MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning
자동 멀티 에이전트 시스템(MAS)은 수동으로 설계하거나 고정된 오케스트레이션을 사용하지 않고 에이전트 워크플로우를 구축하는 것을 목표로 합니다. 그러나 기존의 자동 MAS 접근 방식은 부분적으로만 적응성을 갖추고 있습니다. 즉, 일부는 학습 없이 테스트 시점에 검색을 수행하거나, 메타 수준의 설계자를 최적화하는 동시에 하위 수준의 실행 에이전트를 고정하여 '고정된 실행기'라는 한계를 초래하며, 자체 설계 및 자체 실행 에이전트 모델의 엔드-투-엔드 학습 가능성을 탐색하지 못했습니다. 이러한 문제를 해결하기 위해, 우리는 자동 MAS 설계 및 실행을 동시에 최적화하는 엔드-투-엔드 강화 학습 프레임워크인 MetaAgent-X를 소개합니다. MetaAgent-X는 스크립트 기반의 MAS 생성, 실행 결과 수집, 그리고 설계자 및 실행자 경로에 대한 보상 할당을 가능하게 합니다. 안정적이고 확장 가능한 최적화를 지원하기 위해, 우리는 Executor Designer Hierarchical Rollout 및 Stagewise Co-evolution을 제안하여 학습 안정성을 향상시키고 설계자-실행자 공동 진화의 역학을 보여줍니다. MetaAgent-X는 기존의 자동 MAS 기준 성능을 꾸준히 능가하며, 최대 21.7%의 성능 향상을 달성했습니다. 광범위한 분석 결과, 설계자와 실행자 모두 학습 과정 동안 성능이 향상되는 것을 확인했으며, 효과적인 자동 MAS 학습은 단계별 공동 진화 과정을 따른다는 것을 보여줍니다. 이러한 결과는 엔드-투-엔드 학습이 가능한 자동 MAS를 자체 설계 및 자체 실행 에이전트 모델을 구축하는 실용적인 패러다임으로 확립합니다.
Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.