NavOne: 탑다운 지도를 활용한 비전-언어 내비게이션의 단계별 글로벌 경로 계획
NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps
기존의 비전-언어 내비게이션(VLN) 방법은 일반적으로 자아 중심적인 단계별 방식을 채택하며, 이는 오류 누적 문제를 야기하고 효율성을 제한합니다. 최근 연구에서는 미리 구축된 환경 지도를 활용하려는 시도가 있었지만, 대부분은 메모리 그래프를 점진적으로 업데이트하거나 이산적인 경로 제안을 평가하는 방식을 사용하며, 이는 연속적인 공간 추론을 제한하고 이산적인 병목 현상을 초래합니다. 본 논문에서는 탑다운 VLN(TD-VLN)을 제안하며, 내비게이션을 미리 구축된 탑다운 지도 위에서의 단일 단계 글로벌 경로 계획 문제로 재정의합니다. 이를 위해, 저희는 새로운 R2R-TopDown 데이터셋을 구축했습니다. 저희는 NavOne이라는 통일된 프레임워크를 제안하는데, 이는 다중 모달 지도 위에서 직접적으로 밀집된 경로 확률을 예측하며, 단일의 end-to-end 방식으로 작동합니다. NavOne은 다중 모달 지도 표현을 위한 탑다운 맵 퓨저를 특징으로 하며, 공간 인지 깊이 혼합을 위한 어텐션 잔차 구조를 확장했습니다. R2R-TopDown 데이터셋에 대한 광범위한 실험 결과, NavOne은 기존의 지도 기반 VLN 방법 중 최고 성능을 달성했으며, 계획 단계에서 기존의 지도 기반 방법보다 8배, 자아 중심적인 방법보다 80배 빠른 속도를 보이며, 매우 효율적인 글로벌 내비게이션을 가능하게 합니다.
Existing Vision-Language Navigation (VLN) methods typically adopt an egocentric, step-by-step paradigm, which struggles with error accumulation and limits efficiency. While recent approaches attempt to leverage pre-built environment maps, they often rely on incrementally updating memory graphs or scoring discrete path proposals, which restricts continuous spatial reasoning and creates discrete bottlenecks. We propose Top-Down VLN (TD-VLN), reformulating navigation as a one-step global path planning problem on pre-built top-down maps, supported by our newly constructed R2R-TopDown dataset. To solve this, we introduce NavOne, a unified framework that directly predicts dense path probabilities over multi-modal maps in a single end-to-end forward pass. NavOne features a Top-Down Map Fuser for joint multi-modal map representation, and extends Attention Residuals for spatial-aware depth mixing. Extensive experiments on R2R-TopDown show that NavOne achieves state-of-the-art performance among map-based VLN methods, with a planning-stage speedup of 8x over existing map-based baselines and 80x over egocentric methods, enabling highly efficient global navigation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.