World2Mind: 기초 모델의 공간적 추론을 위한 인지 도구 키트
World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models
강력한 공간적 추론 능력은 현재의 다중 모달 기초 모델(MFM)에게 여전히 근본적인 과제입니다. 기존 방법들은 3D 데이터를 활용한 통계적 단축 경로에 과적합하거나, 2D 시각적 인식에만 머물러 있어 공간적 추론의 정확성과 새로운 상황에서의 일반화 능력을 제한합니다. 생물학적 지능의 공간적 인지 맵핑 메커니즘에서 영감을 받아, 저희는 학습이 필요 없는 공간 지능 도구 키트인 World2Mind를 제안합니다. World2Mind는 3D 재구성 및 인스턴스 분할 모델을 활용하여 구조화된 공간적 인지 맵을 구축하고, MFM이 관심 지점 및 경로에 대한 표적 공간 지식을 능동적으로 습득하도록 지원합니다. 견고한 기하학적-토폴로지적 사전 지식을 제공하기 위해, World2Mind는 타원체 매개변수를 사용하여 랜드마크의 상위 레벨 레이아웃을 정확하게 모델링하는 할로센트릭-공간 트리(AST)를 합성합니다. 3D 재구성에 내재된 부정확성을 완화하기 위해, 저희는 도구 호출 평가, 모달리티 분리된 힌트 수집, 그리고 기하학-의미론적 통합 추론을 포함하는 세 단계의 추론 체인을 도입했습니다. 광범위한 실험 결과, World2Mind는 GPT-5.2와 같은 최첨단 모델의 성능을 5%~18% 향상시켰습니다. 놀랍게도, AST 구조화된 텍스트만 사용하면 순수 텍스트 기반 모델도 복잡한 3D 공간 추론을 수행할 수 있으며, 이는 고급 다중 모달 모델의 성능에 근접하는 결과를 보여줍니다.
Achieving robust spatial reasoning remains a fundamental challenge for current Multimodal Foundation Models (MFMs). Existing methods either overfit statistical shortcuts via 3D grounding data or remain confined to 2D visual perception, limiting both spatial reasoning accuracy and generalization in unseen scenarios. Inspired by the spatial cognitive mapping mechanisms of biological intelligence, we propose World2Mind, a training-free spatial intelligence toolkit. At its core, World2Mind leverages 3D reconstruction and instance segmentation models to construct structured spatial cognitive maps, empowering MFMs to proactively acquire targeted spatial knowledge regarding interested landmarks and routes of interest. To provide robust geometric-topological priors, World2Mind synthesizes an Allocentric-Spatial Tree (AST) that uses elliptical parameters to model the top-down layout of landmarks accurately. To mitigate the inherent inaccuracies of 3D reconstruction, we introduce a three-stage reasoning chain comprising tool invocation assessment, modality-decoupled cue collection, and geometry-semantics interwoven reasoning. Extensive experiments demonstrate that World2Mind boosts the performance of frontier models, such as GPT-5.2, by 5%~18%. Astonishingly, relying solely on the AST-structured text, purely text-only foundation models can perform complex 3D spatial reasoning, achieving performance approaching that of advanced multimodal models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.