2601.11442v1 Jan 16, 2026 cs.CV

Map2Thought: 메트릭 인지 지도를 활용한 명시적인 3차원 공간 추론

Map2Thought: Explicit 3D Spatial Reasoning via Metric Cognitive Maps

Songcen Xu
Songcen Xu
Citations: 563
h-index: 11
Xiangjun Gao
Xiangjun Gao
Citations: 1
h-index: 1
Zhensong Zhang
Zhensong Zhang
Citations: 32
h-index: 3
Dave Zhenyu Chen
Dave Zhenyu Chen
Technical University of Munich
Citations: 1,491
h-index: 11
Long Quan
Long Quan
Citations: 262
h-index: 4
Eduardo P'erez-Pellitero
Eduardo P'erez-Pellitero
Citations: 3
h-index: 1
Youngkyoon Jang
Youngkyoon Jang
Citations: 26
h-index: 2

본 논문에서는 3차원 비디오 언어 모델(VLM)을 위한 명시적이고 해석 가능한 공간 추론을 가능하게 하는 Map2Thought 프레임워크를 제안합니다. 이 프레임워크는 두 가지 핵심 구성 요소, 즉 메트릭 인지 지도(Metric-CogMap)와 인지 추론 체인(Cog-CoT)에 기반합니다. Metric-CogMap은 관계 추론을 위한 이산 격자와 정밀한 기하학적 이해를 위한 연속적인 메트릭 척도를 통합하여 통일된 공간 표현을 제공합니다. Metric-CogMap을 기반으로 Cog-CoT는 벡터 연산, 경계 상자 거리 및 가려짐을 고려한 외관 순서 힌트와 같은 결정론적 연산을 통해 명시적인 기하학적 추론을 수행하며, 이를 통해 3차원 구조에 기반한 해석 가능한 추론 과정을 생성합니다. 실험 결과, Map2Thought는 설명 가능한 3차원 이해를 가능하게 하며, 전체 데이터 세트로 훈련된 기준 모델(60.9%)에 비해 절반의 감독 데이터만 사용하여 59.9%의 정확도를 달성합니다. 또한, VSI-Bench 데이터 세트에서 10%, 25% 및 50%의 학습 데이터 부분집합에 대해 각각 5.3%, 4.8% 및 4.0%의 성능 향상을 보여 최첨단 방법보다 우수한 성능을 보입니다.

Original Abstract

We propose Map2Thought, a framework that enables explicit and interpretable spatial reasoning for 3D VLMs. The framework is grounded in two key components: Metric Cognitive Map (Metric-CogMap) and Cognitive Chain-of-Thought (Cog-CoT). Metric-CogMap provides a unified spatial representation by integrating a discrete grid for relational reasoning with a continuous, metric-scale representation for precise geometric understanding. Building upon the Metric-CogMap, Cog-CoT performs explicit geometric reasoning through deterministic operations, including vector operations, bounding-box distances, and occlusion-aware appearance order cues, producing interpretable inference traces grounded in 3D structure. Experimental results show that Map2Thought enables explainable 3D understanding, achieving 59.9% accuracy using only half the supervision, closely matching the 60.9% baseline trained with the full dataset. It consistently outperforms state-of-the-art methods by 5.3%, 4.8%, and 4.0% under 10%, 25%, and 50% training subsets, respectively, on the VSI-Bench.

1 Citations
0 Influential
5.5 Altmetric
28.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!