2604.22748v1 Apr 24, 2026 cs.AI

주체적인 세계 모델링: 기초, 기능, 원리, 그리고 그 이상

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Jizhong Han
Jizhong Han
Citations: 0
h-index: 0
Quanyu Long
Quanyu Long
Citations: 237
h-index: 9
Philip Torr
Philip Torr
Citations: 601
h-index: 12
Wenya Wang
Wenya Wang
Citations: 84
h-index: 4
Mike Zheng Shou
Mike Zheng Shou
Citations: 208
h-index: 8
Yifei Dong
Yifei Dong
Citations: 79
h-index: 5
Xichen Zhang
Xichen Zhang
Citations: 41
h-index: 3
Shaozuo Yu
Shaozuo Yu
Citations: 72
h-index: 4
Zhi-Qi Cheng
Zhi-Qi Cheng
Citations: 208
h-index: 5
Ziqi Huang
Ziqi Huang
Citations: 2,027
h-index: 11
Xinyu Lin
Xinyu Lin
Citations: 1,008
h-index: 15
Kevin Qinghong Lin
Kevin Qinghong Lin
Citations: 74
h-index: 3
Senqiao Yang
Senqiao Yang
Citations: 579
h-index: 8
Mengke Chu
Mengke Chu
Citations: 0
h-index: 0
Xuan Zhang
Xuan Zhang
Citations: 95
h-index: 3
Lingdong Kong
Lingdong Kong
Citations: 173
h-index: 8
Jize Zhang
Jize Zhang
Citations: 24
h-index: 3
Teng Tu
Teng Tu
Citations: 82
h-index: 2
Wei Huang
Wei Huang
Citations: 163
h-index: 4
Yeying Jin
Yeying Jin
Citations: 148
h-index: 5
Zhefan Rao
Zhefan Rao
Citations: 18
h-index: 3
Jinhui Ye
Jinhui Ye
Citations: 57
h-index: 1
Qisheng Hu
Qisheng Hu
Citations: 125
h-index: 5
Shuai Yang
Shuai Yang
Citations: 4
h-index: 1
Leyang Shen
Leyang Shen
Citations: 178
h-index: 3
Wei Chow
Wei Chow
Citations: 12
h-index: 2
Bin Xia
Bin Xia
Citations: 160
h-index: 7
Mingkang Zhu
Mingkang Zhu
Citations: 14
h-index: 3
Wenhui Zhang
Wenhui Zhang
Citations: 89
h-index: 2
Jiehui Huang
Jiehui Huang
Citations: 47
h-index: 2
Haokun Gui
Haokun Gui
Citations: 32
h-index: 3
Haoxuan Che
Haoxuan Che
Citations: 28
h-index: 2
Long Chen
Long Chen
Citations: 30
h-index: 2
Qifeng Chen
Qifeng Chen
Citations: 258
h-index: 6
Wenxuan Zhang
Wenxuan Zhang
Citations: 93
h-index: 4
Xiaojuan Qi
Xiaojuan Qi
Citations: 527
h-index: 8
Yang Deng
Yang Deng
Citations: 7
h-index: 2
Yanwei Li
Yanwei Li
Citations: 187
h-index: 9
See-Kiong Ng
See-Kiong Ng
Citations: 3
h-index: 1
Jiaya Jia
Jiaya Jia
Citations: 670
h-index: 5

인공지능 시스템이 텍스트 생성에서 벗어나 지속적인 상호작용을 통해 목표를 달성하는 과정에서, 환경 동역학 모델링 능력은 핵심적인 병목 현상이 됩니다. 객체를 조작하고, 소프트웨어를 탐색하고, 다른 에이전트와 협력하거나, 실험을 설계하는 에이전트는 예측 가능한 환경 모델을 필요로 하지만, '세계 모델'이라는 용어는 연구 커뮤니티마다 다른 의미로 사용됩니다. 본 연구에서는 두 가지 축을 기준으로 '단계 x 원리' 분류 체계를 제시합니다. 첫 번째 축은 세 가지 기능 수준을 정의합니다. L1 예측기(Predictor)는 단일 단계의 지역적 변환 연산자를 학습하고, L2 시뮬레이터(Simulator)는 이를 여러 단계의 동작 조건에 따른 시뮬레이션으로 구성하여 특정 도메인의 원리를 준수하며, L3 진화기(Evolver)는 예측이 새로운 증거에 의해 실패할 경우 스스로 모델을 자율적으로 수정합니다. 두 번째 축은 네 가지 주요 원리 영역(물리, 디지털, 사회, 과학)을 식별합니다. 이러한 영역은 세계 모델이 만족해야 하는 제약 조건을 결정하며, 모델이 실패할 가능성이 높은 영역을 나타냅니다. 본 연구에서는 이러한 프레임워크를 사용하여 400개 이상의 연구를 종합하고, 모델 기반 강화 학습, 비디오 생성, 웹 및 GUI 에이전트, 다중 에이전트 사회 시뮬레이션, AI 기반 과학적 발견 등 100개 이상의 대표적인 시스템을 요약합니다. 본 연구는 각 수준-영역 조합에 따른 방법, 실패 모드 및 평가 방식을 분석하고, 의사 결정 중심의 평가 원칙과 최소 재현 가능한 평가 패키지를 제안하며, 아키텍처 지침, 미해결 과제 및 거버넌스 문제를 제시합니다. 이러한 연구 결과를 통해 이전에 분리되었던 연구 분야를 연결하고, 수동적인 다음 단계 예측에서부터 에이전트가 활동하는 환경을 시뮬레이션하고 궁극적으로 재구성할 수 있는 세계 모델로 나아가는 방법을 제시합니다.

Original Abstract

As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!