Agent-World: 진화하는 범용 에이전트 지능 발전을 위한 실세계 환경 합성 확장
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
대규모 언어 모델은 점점 더 외부의 상태 기반 도구 환경과 상호 작용하는 범용 에이전트로 활용될 것으로 예상됩니다. 모델 컨텍스트 프로토콜(MCP) 및 광범위한 에이전트 기술은 에이전트를 확장 가능한 실세계 서비스와 연결하는 통합 인터페이스를 제공하지만, 견고한 에이전트 훈련은 여전히 현실적인 환경과 평생 학습을 위한 체계적인 메커니즘의 부족으로 인해 제한됩니다. 본 논문에서는 범용 에이전트 지능 발전을 위한 확장 가능한 환경을 제공하는 자체 진화형 훈련 환경인 **Agent-World**를 소개합니다. Agent-World는 두 가지 주요 구성 요소로 이루어져 있습니다. (1) 에이전트 기반 환경-작업 발견: 이 구성 요소는 수천 개의 실세계 환경 테마에서 주제와 관련된 데이터베이스와 실행 가능한 도구 생태계를 자율적으로 탐색하고, 제어 가능한 난이도를 가진 검증 가능한 작업을 합성합니다. (2) 지속적인 자체 진화형 에이전트 훈련: 이 구성 요소는 다중 환경 강화 학습을 자체 진화형 에이전트 환경과 결합하여, 동적 작업 합성(dynamic task synthesis)을 통해 역량 격차를 자동으로 식별하고, 목표 지향적인 학습을 촉진하여 에이전트 정책과 환경의 공동 진화를 가능하게 합니다. 23개의 어려운 에이전트 벤치마크에서 Agent-World-8B 및 14B는 강력한 독점 모델 및 환경 확장 기준 모델보다 일관되게 뛰어난 성능을 보였습니다. 추가 분석 결과, 환경 다양성과 자체 진화 횟수와 관련된 확장 경향을 파악할 수 있었으며, 이는 범용 에이전트 지능 구축을 위한 통찰력을 제공합니다.
Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present \textbf{Agent-World}, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.