2601.01547v1 Jan 04, 2026 cs.CV

EscherVerse: 물리적-동역학 및 의도 기반 이해를 갖춘 공간 인지 능력을 위한 개방형 벤치마크 및 데이터셋

EscherVerse: An Open World Benchmark and Dataset for Teleo-Spatial Intelligence with Physical-Dynamic and Intent-Driven Understanding

Lizhuang Ma
Lizhuang Ma
Citations: 1,022
h-index: 14
Xin Tan
Xin Tan
Citations: 15
h-index: 3
Chenghua Gong
Chenghua Gong
Citations: 16
h-index: 2
Tianjun Gu
Tianjun Gu
East China Normal University, Tencent Youtu Lab
Citations: 136
h-index: 3
Jing-yu Gong
Jing-yu Gong
Citations: 291
h-index: 10
Zhizhong Zhang
Zhizhong Zhang
Citations: 325
h-index: 9
Yuan Xie
Yuan Xie
Citations: 142
h-index: 7

공간 역학에 대한 추론 능력은 지능의 핵심이지만, 현재 연구는 공간 변화에 내재된 인간의 의도를 간과하는 경향이 있습니다. 이러한 한계를 극복하기 위해, 우리는 물리적-동역학적 추론(물체 간의 물리적 원리 이해)과 의도 기반 추론(행동의 이면에 숨겨진 인간의 목표 추론)이라는 두 가지 중요한 요소를 통합하는 새로운 패러다임인 '공간 인지 능력(Teleo-Spatial Intelligence, TSI)'을 제안합니다. TSI 연구를 촉진하기 위해, 우리는 대규모 개방형 벤치마크(Escher-Bench), 데이터셋(Escher-35k), 그리고 모델(Escher 시리즈)로 구성된 EscherVerse를 제시합니다. 실제 비디오에서 파생된 EscherVerse는 제한적인 환경을 넘어, 에이전트가 역동적이고 인간 중심적인 시나리오에서 물체의 지속성, 상태 변화 및 궤적 예측에 대해 추론하는 능력을 명시적으로 평가합니다. 특히, EscherVerse는 의도 기반 추론을 체계적으로 평가하는 최초의 벤치마크로서, 모델이 물리적 사건과 그 뒤에 숨겨진 인간의 목적을 연결하도록 도전합니다. 데이터 큐레이션 파이프라인을 포함한 우리의 연구는 공간 인지 능력을 수동적인 장면 설명에서 벗어나, 세계에 대한 전체적이고 목적 지향적인 이해를 향한 발전시키는 데 필요한 기초 자료를 제공합니다.

Original Abstract

The ability to reason about spatial dynamics is a cornerstone of intelligence, yet current research overlooks the human intent behind spatial changes. To address these limitations, we introduce Teleo-Spatial Intelligence (TSI), a new paradigm that unifies two critical pillars: Physical-Dynamic Reasoning--understanding the physical principles of object interactions--and Intent-Driven Reasoning--inferring the human goals behind these actions. To catalyze research in TSI, we present EscherVerse, consisting of a large-scale, open-world benchmark (Escher-Bench), a dataset (Escher-35k), and models (Escher series). Derived from real-world videos, EscherVerse moves beyond constrained settings to explicitly evaluate an agent's ability to reason about object permanence, state transitions, and trajectory prediction in dynamic, human-centric scenarios. Crucially, it is the first benchmark to systematically assess Intent-Driven Reasoning, challenging models to connect physical events to their underlying human purposes. Our work, including a novel data curation pipeline, provides a foundational resource to advance spatial intelligence from passive scene description toward a holistic, purpose-driven understanding of the world.

0 Citations
0 Influential
7 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!