공간에 대한 이론: 기반 모델은 능동적 탐색을 통해 공간적 믿음을 구축할 수 있는가?
Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
공간적 인지 능력은 부분적인 관찰 환경에서 정보를 획득하기 위해 에이전트가 행동해야 하는 능력을 요구합니다. 멀티모달 기반 모델은 수동적인 인지에 뛰어난 성능을 보이지만, 능동적이고 자율적인 탐색 능력은 아직 충분히 연구되지 않았습니다. 본 논문에서는 '공간에 대한 이론'을 제안합니다. 이는 에이전트가 자율적인 능동적 탐색을 통해 정보를 획득하고, 순차적이고 부분적인 관찰을 통해 공간적 믿음을 구축, 수정하고 활용하는 능력을 의미합니다. 우리는 호기심 기반 탐색을 통해 정확한 인지 지도를 구축하는 것을 목표로 하는 벤치마크를 통해 이를 평가합니다. 핵심적인 혁신은 '공간적 믿음 탐색'으로, 이는 모델이 각 단계에서 내부적인 공간 표현을 드러내도록 유도하는 기술입니다. 최첨단 모델에 대한 우리의 평가는 몇 가지 중요한 문제점을 드러냅니다. 첫째, 우리는 '능동-수동 격차(Active-Passive Gap)'를 확인했는데, 이는 에이전트가 자율적으로 정보를 수집해야 할 때 성능이 크게 저하되는 현상입니다. 둘째, 모델이 체계적으로 탐색하는 프로그램 기반 모델에 비해 비효율적인 탐색을 수행한다는 것을 발견했습니다. 믿음 탐색을 통해 분석한 결과, 초기 단계에서는 인지 능력이 병목 현상을 일으키지만, 전반적인 믿음은 불안정하여 시간이 지남에 따라 공간적 지식이 저하되는 것을 확인했습니다. 마지막으로, '잘못된 믿음(false belief)' 패러다임을 사용하여 '믿음 관성(Belief Inertia)'을 발견했습니다. 이는 에이전트가 새로운 증거로 더 이상 유효하지 않은 기존의 선입견을 업데이트하지 못하는 현상이며, 텍스트 기반 에이전트에서 나타나지만, 특히 시각 기반 모델에서 더욱 심각하게 나타납니다. 우리의 연구 결과는 현재 기반 모델이 능동적 탐색 과정에서 일관되고 수정 가능한 공간적 믿음을 유지하는 데 어려움을 겪고 있음을 시사합니다.
Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active, self-directed exploration remains understudied. We propose Theory of Space, defined as an agent's ability to actively acquire information through self-directed, active exploration and to construct, revise, and exploit a spatial belief from sequential, partial observations. We evaluate this through a benchmark where the goal is curiosity-driven exploration to build an accurate cognitive map. A key innovation is spatial belief probing, which prompts models to reveal their internal spatial representations at each step. Our evaluation of state-of-the-art models reveals several critical bottlenecks. First, we identify an Active-Passive Gap, where performance drops significantly when agents must autonomously gather information. Second, we find high inefficiency, as models explore unsystematically compared to program-based proxies. Through belief probing, we diagnose that while perception is an initial bottleneck, global beliefs suffer from instability that causes spatial knowledge to degrade over time. Finally, using a false belief paradigm, we uncover Belief Inertia, where agents fail to update obsolete priors with new evidence. This issue is present in text-based agents but is particularly severe in vision-based models. Our findings suggest that current foundation models struggle to maintain coherent, revisable spatial beliefs during active exploration.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.