마음이 공간을 지배한다: 멀티모달 대규모 언어 모델은 정신적으로 공간을 탐색할 수 있는가?
Mind over Space: Can Multimodal Large Language Models Mentally Navigate?
멀티모달 대규모 언어 모델(MLLM)이 로봇 등 구체화된 에이전트에 널리 사용되고 있지만, 그들의 능력은 여전히 즉각적인 관찰을 기반으로 한 반응적인 계획에 국한되며, 광범위한 시간-공간적 규모에서의 공간 추론에서는 지속적으로 실패합니다. 인지과학 연구에 따르면 생물학적 지능(BI)은 "정신적 탐색"에 의존합니다. 즉, 경험으로부터 공간 표현을 전략적으로 구성하고, 행동에 앞서 경로를 정신적으로 시뮬레이션하는 것입니다. 인공지능과 생물학적 지능 사이의 격차를 해소하기 위해, 우리는 MLLM의 정신적 탐색 능력을 평가하기 위한 새로운 벤치마크인 Video2Mental을 소개합니다. 이 작업은 장기간의 1인칭 시점 영상을 통해 계층적 인지 지도를 구축하고, 랜드마크 기반의 단계별 경로 계획을 생성하는 것을 요구하며, 시뮬레이터를 기반으로 한 물리적 상호작용을 통해 계획 정확도를 검증합니다. 우리의 벤치마킹 결과는 정신적 탐색 능력이 표준적인 사전 학습만으로는 자연스럽게 나타나지 않는다는 것을 보여줍니다. 최첨단 MLLM은 제로샷 환경에서의 구조화된 공간 표현에 어려움을 겪으며, 계획 정확도는 시간이 지남에 따라 급격하게 저하됩니다. 이를 극복하기 위해, 우리는 정신적 탐색을 명시적이고 세밀한 인지 지도를 사용하여 내재화하는 추론 모델인 NavMind를 제안합니다. NavMind는 난이도에 따라 계층화된 점진적인 지도 학습 방식을 통해, 원시적인 인식과 구조화된 계획 사이의 격차를 효과적으로 해소합니다. 실험 결과는 NavMind가 우수한 정신적 탐색 능력을 달성하며, 최첨단 상용 및 공간 MLLM보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다.
Despite the widespread adoption of MLLMs in embodied agents, their capabilities remain largely confined to reactive planning from immediate observations, consistently failing in spatial reasoning across extensive spatiotemporal scales. Cognitive science reveals that Biological Intelligence (BI) thrives on "mental navigation": the strategic construction of spatial representations from experience and the subsequent mental simulation of paths prior to action. To bridge the gap between AI and BI, we introduce Video2Mental, a pioneering benchmark for evaluating the mental navigation capabilities of MLLMs. The task requires constructing hierarchical cognitive maps from long egocentric videos and generating landmark-based path plans step by step, with planning accuracy verified through simulator-based physical interaction. Our benchmarking results reveal that mental navigation capability does not naturally emerge from standard pre-training. Frontier MLLMs struggle profoundly with zero-shot structured spatial representation, and their planning accuracy decays precipitously over extended horizons. To overcome this, we propose \textbf{NavMind}, a reasoning model that internalizes mental navigation using explicit, fine-grained cognitive maps as learnable intermediate representations. Through a difficulty-stratified progressive supervised fine-tuning paradigm, NavMind effectively bridges the gap between raw perception and structured planning. Experiments demonstrate that NavMind achieves superior mental navigation capabilities, significantly outperforming frontier commercial and spatial MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.