EscherVerse: 물리적-동역학 및 의도 기반 이해를 갖춘 공간 인지 능력을 위한 개방형 벤치마크 및 데이터셋
EscherVerse: An Open World Benchmark and Dataset for Teleo-Spatial Intelligence with Physical-Dynamic and Intent-Driven Understanding
공간 역학에 대한 추론 능력은 지능의 핵심이지만, 현재 연구는 공간 변화에 내재된 인간의 의도를 간과하는 경향이 있습니다. 이러한 한계를 극복하기 위해, 우리는 물리적-동역학적 추론(물체 간의 물리적 원리 이해)과 의도 기반 추론(행동의 이면에 숨겨진 인간의 목표 추론)이라는 두 가지 중요한 요소를 통합하는 새로운 패러다임인 '공간 인지 능력(Teleo-Spatial Intelligence, TSI)'을 제안합니다. TSI 연구를 촉진하기 위해, 우리는 대규모 개방형 벤치마크(Escher-Bench), 데이터셋(Escher-35k), 그리고 모델(Escher 시리즈)로 구성된 EscherVerse를 제시합니다. 실제 비디오에서 파생된 EscherVerse는 제한적인 환경을 넘어, 에이전트가 역동적이고 인간 중심적인 시나리오에서 물체의 지속성, 상태 변화 및 궤적 예측에 대해 추론하는 능력을 명시적으로 평가합니다. 특히, EscherVerse는 의도 기반 추론을 체계적으로 평가하는 최초의 벤치마크로서, 모델이 물리적 사건과 그 뒤에 숨겨진 인간의 목적을 연결하도록 도전합니다. 데이터 큐레이션 파이프라인을 포함한 우리의 연구는 공간 인지 능력을 수동적인 장면 설명에서 벗어나, 세계에 대한 전체적이고 목적 지향적인 이해를 향한 발전시키는 데 필요한 기초 자료를 제공합니다.
The ability to reason about spatial dynamics is a cornerstone of intelligence, yet current research overlooks the human intent behind spatial changes. To address these limitations, we introduce Teleo-Spatial Intelligence (TSI), a new paradigm that unifies two critical pillars: Physical-Dynamic Reasoning--understanding the physical principles of object interactions--and Intent-Driven Reasoning--inferring the human goals behind these actions. To catalyze research in TSI, we present EscherVerse, consisting of a large-scale, open-world benchmark (Escher-Bench), a dataset (Escher-35k), and models (Escher series). Derived from real-world videos, EscherVerse moves beyond constrained settings to explicitly evaluate an agent's ability to reason about object permanence, state transitions, and trajectory prediction in dynamic, human-centric scenarios. Crucially, it is the first benchmark to systematically assess Intent-Driven Reasoning, challenging models to connect physical events to their underlying human purposes. Our work, including a novel data curation pipeline, provides a foundational resource to advance spatial intelligence from passive scene description toward a holistic, purpose-driven understanding of the world.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.