2603.21577v1 Mar 23, 2026 cs.AI

마음이 공간을 지배한다: 멀티모달 대규모 언어 모델은 정신적으로 공간을 탐색할 수 있는가?

Mind over Space: Can Multimodal Large Language Models Mentally Navigate?

Shouwei Ruan
Shouwei Ruan
Citations: 335
h-index: 8
Qihui Zhu
Qihui Zhu
Citations: 12
h-index: 1
Hang Su
Hang Su
Citations: 1
h-index: 1
Xiao Yang
Xiao Yang
Citations: 21
h-index: 3
Haohan Jiang
Haohan Jiang
Citations: 8
h-index: 2
Yao Huang
Yao Huang
Citations: 358
h-index: 9
Shiji Zhao
Shiji Zhao
Citations: 242
h-index: 10
Hanwei Fan
Hanwei Fan
Citations: 0
h-index: 0
Xingxing Wei
Xingxing Wei
Citations: 271
h-index: 8

멀티모달 대규모 언어 모델(MLLM)이 로봇 등 구체화된 에이전트에 널리 사용되고 있지만, 그들의 능력은 여전히 즉각적인 관찰을 기반으로 한 반응적인 계획에 국한되며, 광범위한 시간-공간적 규모에서의 공간 추론에서는 지속적으로 실패합니다. 인지과학 연구에 따르면 생물학적 지능(BI)은 "정신적 탐색"에 의존합니다. 즉, 경험으로부터 공간 표현을 전략적으로 구성하고, 행동에 앞서 경로를 정신적으로 시뮬레이션하는 것입니다. 인공지능과 생물학적 지능 사이의 격차를 해소하기 위해, 우리는 MLLM의 정신적 탐색 능력을 평가하기 위한 새로운 벤치마크인 Video2Mental을 소개합니다. 이 작업은 장기간의 1인칭 시점 영상을 통해 계층적 인지 지도를 구축하고, 랜드마크 기반의 단계별 경로 계획을 생성하는 것을 요구하며, 시뮬레이터를 기반으로 한 물리적 상호작용을 통해 계획 정확도를 검증합니다. 우리의 벤치마킹 결과는 정신적 탐색 능력이 표준적인 사전 학습만으로는 자연스럽게 나타나지 않는다는 것을 보여줍니다. 최첨단 MLLM은 제로샷 환경에서의 구조화된 공간 표현에 어려움을 겪으며, 계획 정확도는 시간이 지남에 따라 급격하게 저하됩니다. 이를 극복하기 위해, 우리는 정신적 탐색을 명시적이고 세밀한 인지 지도를 사용하여 내재화하는 추론 모델인 NavMind를 제안합니다. NavMind는 난이도에 따라 계층화된 점진적인 지도 학습 방식을 통해, 원시적인 인식과 구조화된 계획 사이의 격차를 효과적으로 해소합니다. 실험 결과는 NavMind가 우수한 정신적 탐색 능력을 달성하며, 최첨단 상용 및 공간 MLLM보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다.

Original Abstract

Despite the widespread adoption of MLLMs in embodied agents, their capabilities remain largely confined to reactive planning from immediate observations, consistently failing in spatial reasoning across extensive spatiotemporal scales. Cognitive science reveals that Biological Intelligence (BI) thrives on "mental navigation": the strategic construction of spatial representations from experience and the subsequent mental simulation of paths prior to action. To bridge the gap between AI and BI, we introduce Video2Mental, a pioneering benchmark for evaluating the mental navigation capabilities of MLLMs. The task requires constructing hierarchical cognitive maps from long egocentric videos and generating landmark-based path plans step by step, with planning accuracy verified through simulator-based physical interaction. Our benchmarking results reveal that mental navigation capability does not naturally emerge from standard pre-training. Frontier MLLMs struggle profoundly with zero-shot structured spatial representation, and their planning accuracy decays precipitously over extended horizons. To overcome this, we propose \textbf{NavMind}, a reasoning model that internalizes mental navigation using explicit, fine-grained cognitive maps as learnable intermediate representations. Through a difficulty-stratified progressive supervised fine-tuning paradigm, NavMind effectively bridges the gap between raw perception and structured planning. Experiments demonstrate that NavMind achieves superior mental navigation capabilities, significantly outperforming frontier commercial and spatial MLLMs.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!