2601.06806v1 Jan 11, 2026 cs.CV

SpatialNav: 공간 장면 그래프를 활용한 제로샷 비전-언어 네비게이션

SpatialNav: Leveraging Spatial Scene Graphs for Zero-Shot Vision-and-Language Navigation

Jiwen Zhang
Jiwen Zhang
Citations: 204
h-index: 4
Siyuan Wang
Siyuan Wang
Citations: 1,236
h-index: 20
Zejun Li
Zejun Li
Citations: 270
h-index: 10
Xiangyu Shi
Xiangyu Shi
Citations: 14
h-index: 2
Zhongyu Wei
Zhongyu Wei
Citations: 257
h-index: 5
Qi Wu
Qi Wu
Citations: 2
h-index: 1

기반 학습 모델 기반의 비전-언어 네비게이션(VLN) 에이전트는 대규모 학습 데이터를 통해 공간 지식을 암묵적으로 학습할 수 있지만, 제로샷 VLN 에이전트는 이러한 과정을 거치지 못하고 주로 현지 정보를 기반으로 탐색하며, 이는 비효율적인 탐색과 상당한 성능 격차로 이어집니다. 이러한 문제를 해결하기 위해, 우리는 에이전트가 작업 실행 전에 환경을 완전히 탐색할 수 있는 제로샷 VLN 환경을 고려합니다. 그런 다음, 탐색된 환경의 전역적인 공간 구조와 의미를 명시적으로 포착하기 위해 공간 장면 그래프(SSG)를 구성합니다. SSG를 기반으로, 우리는 에이전트 중심의 공간 지도, 나침반 정렬 시각적 표현, 그리고 효율적인 탐색을 위한 원격 객체 위치 추적 전략을 통합한 제로샷 VLN 에이전트인 SpatialNav를 제안합니다. 이산적 및 연속적인 환경에서의 종합적인 실험 결과는 SpatialNav가 기존의 제로샷 에이전트보다 현저히 우수한 성능을 보이며, 최첨단 기반 학습 방법과의 격차를 크게 줄인다는 것을 보여줍니다. 이러한 결과는 일반화된 탐색을 위한 전역적인 공간 표현의 중요성을 강조합니다.

Original Abstract

Although learning-based vision-and-language navigation (VLN) agents can learn spatial knowledge implicitly from large-scale training data, zero-shot VLN agents lack this process, relying primarily on local observations for navigation, which leads to inefficient exploration and a significant performance gap. To deal with the problem, we consider a zero-shot VLN setting that agents are allowed to fully explore the environment before task execution. Then, we construct the Spatial Scene Graph (SSG) to explicitly capture global spatial structure and semantics in the explored environment. Based on the SSG, we introduce SpatialNav, a zero-shot VLN agent that integrates an agent-centric spatial map, a compass-aligned visual representation, and a remote object localization strategy for efficient navigation. Comprehensive experiments in both discrete and continuous environments demonstrate that SpatialNav significantly outperforms existing zero-shot agents and clearly narrows the gap with state-of-the-art learning-based methods. Such results highlight the importance of global spatial representations for generalizable navigation.

1 Citations
0 Influential
10 Altmetric
51.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!