Map2Thought: 메트릭 인지 지도를 활용한 명시적인 3차원 공간 추론
Map2Thought: Explicit 3D Spatial Reasoning via Metric Cognitive Maps
본 논문에서는 3차원 비디오 언어 모델(VLM)을 위한 명시적이고 해석 가능한 공간 추론을 가능하게 하는 Map2Thought 프레임워크를 제안합니다. 이 프레임워크는 두 가지 핵심 구성 요소, 즉 메트릭 인지 지도(Metric-CogMap)와 인지 추론 체인(Cog-CoT)에 기반합니다. Metric-CogMap은 관계 추론을 위한 이산 격자와 정밀한 기하학적 이해를 위한 연속적인 메트릭 척도를 통합하여 통일된 공간 표현을 제공합니다. Metric-CogMap을 기반으로 Cog-CoT는 벡터 연산, 경계 상자 거리 및 가려짐을 고려한 외관 순서 힌트와 같은 결정론적 연산을 통해 명시적인 기하학적 추론을 수행하며, 이를 통해 3차원 구조에 기반한 해석 가능한 추론 과정을 생성합니다. 실험 결과, Map2Thought는 설명 가능한 3차원 이해를 가능하게 하며, 전체 데이터 세트로 훈련된 기준 모델(60.9%)에 비해 절반의 감독 데이터만 사용하여 59.9%의 정확도를 달성합니다. 또한, VSI-Bench 데이터 세트에서 10%, 25% 및 50%의 학습 데이터 부분집합에 대해 각각 5.3%, 4.8% 및 4.0%의 성능 향상을 보여 최첨단 방법보다 우수한 성능을 보입니다.
We propose Map2Thought, a framework that enables explicit and interpretable spatial reasoning for 3D VLMs. The framework is grounded in two key components: Metric Cognitive Map (Metric-CogMap) and Cognitive Chain-of-Thought (Cog-CoT). Metric-CogMap provides a unified spatial representation by integrating a discrete grid for relational reasoning with a continuous, metric-scale representation for precise geometric understanding. Building upon the Metric-CogMap, Cog-CoT performs explicit geometric reasoning through deterministic operations, including vector operations, bounding-box distances, and occlusion-aware appearance order cues, producing interpretable inference traces grounded in 3D structure. Experimental results show that Map2Thought enables explainable 3D understanding, achieving 59.9% accuracy using only half the supervision, closely matching the 60.9% baseline trained with the full dataset. It consistently outperforms state-of-the-art methods by 5.3%, 4.8%, and 4.0% under 10%, 25%, and 50% training subsets, respectively, on the VSI-Bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.