2604.18292v1 Apr 20, 2026 cs.AI

Agent-World: 진화하는 범용 에이전트 지능 발전을 위한 실세계 환경 합성 확장

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Guanting Dong
Guanting Dong
Citations: 900
h-index: 10
Yutao Zhu
Yutao Zhu
University of Montreal
Citations: 4,302
h-index: 28
Zhicheng Dou
Zhicheng Dou
Citations: 2,019
h-index: 23
Yang Zhao
Yang Zhao
Citations: 2
h-index: 1
Qinyu Luo
Qinyu Luo
Citations: 241
h-index: 5
Xiaoshuai Song
Xiaoshuai Song
Renmin University of China
Citations: 414
h-index: 9
Shijue Huang
Shijue Huang
Citations: 26
h-index: 3
Zehui Chen
Zehui Chen
Citations: 1,678
h-index: 8
Jiajie Jin
Jiajie Jin
Citations: 1,355
h-index: 13
Xiaoxi Li
Xiaoxi Li
Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China
Citations: 1,074
h-index: 11
Zhenyu Li
Zhenyu Li
Citations: 14
h-index: 2
Junting Lu
Junting Lu
Citations: 35
h-index: 3
Junjie Huang
Junjie Huang
Citations: 0
h-index: 0
Wanjun Zhong
Wanjun Zhong
Citations: 1,249
h-index: 12
Longxiang Liu
Longxiang Liu
Citations: 695
h-index: 4
Han-Cheng Wang
Han-Cheng Wang
Citations: 0
h-index: 0
Fangyu Lei
Fangyu Lei
Citations: 1,092
h-index: 13
Mingyang Chen
Mingyang Chen
Citations: 164
h-index: 6
Ji-Rong Wen
Ji-Rong Wen
Citations: 127
h-index: 5
Jiazhan Feng
Jiazhan Feng
Citations: 118
h-index: 3

대규모 언어 모델은 점점 더 외부의 상태 기반 도구 환경과 상호 작용하는 범용 에이전트로 활용될 것으로 예상됩니다. 모델 컨텍스트 프로토콜(MCP) 및 광범위한 에이전트 기술은 에이전트를 확장 가능한 실세계 서비스와 연결하는 통합 인터페이스를 제공하지만, 견고한 에이전트 훈련은 여전히 현실적인 환경과 평생 학습을 위한 체계적인 메커니즘의 부족으로 인해 제한됩니다. 본 논문에서는 범용 에이전트 지능 발전을 위한 확장 가능한 환경을 제공하는 자체 진화형 훈련 환경인 **Agent-World**를 소개합니다. Agent-World는 두 가지 주요 구성 요소로 이루어져 있습니다. (1) 에이전트 기반 환경-작업 발견: 이 구성 요소는 수천 개의 실세계 환경 테마에서 주제와 관련된 데이터베이스와 실행 가능한 도구 생태계를 자율적으로 탐색하고, 제어 가능한 난이도를 가진 검증 가능한 작업을 합성합니다. (2) 지속적인 자체 진화형 에이전트 훈련: 이 구성 요소는 다중 환경 강화 학습을 자체 진화형 에이전트 환경과 결합하여, 동적 작업 합성(dynamic task synthesis)을 통해 역량 격차를 자동으로 식별하고, 목표 지향적인 학습을 촉진하여 에이전트 정책과 환경의 공동 진화를 가능하게 합니다. 23개의 어려운 에이전트 벤치마크에서 Agent-World-8B 및 14B는 강력한 독점 모델 및 환경 확장 기준 모델보다 일관되게 뛰어난 성능을 보였습니다. 추가 분석 결과, 환경 다양성과 자체 진화 횟수와 관련된 확장 경향을 파악할 수 있었으며, 이는 범용 에이전트 지능 구축을 위한 통찰력을 제공합니다.

Original Abstract

Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present \textbf{Agent-World}, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.

0 Citations
0 Influential
14 Altmetric
70.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!