일반 세계 모델을 정의하는 원칙으로서의 일관성의 삼위일체
The Trinity of Consistency as a Defining Principle for General World Models
학습, 시뮬레이션 및 객관적인 물리 법칙에 대한 추론이 가능한 세계 모델을 구축하는 것은 인공 일반 지능(AGI)을 추구하는 데 있어 근본적인 과제입니다. Sora와 같은 비디오 생성 모델의 최근 발전은 데이터 기반 확장 법칙이 물리적 역학을 근사화할 수 있는 잠재력을 보여주었으며, 새로운 통합 다중 모드 모델(UMM)은 인지, 언어 및 추론을 통합하는 유망한 아키텍처 패러다임을 제공합니다. 이러한 발전에도 불구하고, 이 분야는 여전히 일반 세계 모델에 필수적인 특성을 정의하는 원칙적인 이론적 프레임워크가 부족합니다. 본 논문에서는 세계 모델이 '일관성의 삼위일체'에 기반해야 한다고 제안합니다. 즉, 의미론적 인터페이스로서의 모달 일관성, 기하학적 기반으로서의 공간 일관성, 그리고 인과 관계를 설명하는 동력으로서의 시간 일관성입니다. 이 삼각 관점에서, 우리는 다중 모드 학습의 진화를 체계적으로 검토하여, 느슨하게 결합된 전문 모듈에서 시작하여 내부 세계 시뮬레이터의 시너지적 발전을 가능하게 하는 통합 아키텍처로의 진화 과정을 밝혀냅니다. 이러한 개념적 프레임워크를 보완하기 위해, 다중 프레임 추론 및 생성 시나리오에 초점을 맞춘 벤치마크인 CoW-Bench를 소개합니다. CoW-Bench는 비디오 생성 모델과 UMM을 통일된 평가 프로토콜을 통해 평가합니다. 본 연구는 일반 세계 모델을 향한 원칙적인 경로를 제시하며, 현재 시스템의 한계와 미래 발전을 위한 아키텍처 요구 사항을 명확히 합니다.
The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.