2605.06317v1 May 07, 2026 cs.CV

NavOne: 탑다운 지도를 활용한 비전-언어 내비게이션의 단계별 글로벌 경로 계획

NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps

Yong Li
Yong Li
Citations: 183
h-index: 6
Dijia Zhan
Dijia Zhan
Citations: 1
h-index: 1
Jinyi Li
Jinyi Li
Citations: 17
h-index: 2
Shaoyu Huang
Shaoyu Huang
Citations: 7
h-index: 2
Jie Tang
Jie Tang
Citations: 1
h-index: 1
Chenxi Zheng
Chenxi Zheng
Citations: 109
h-index: 7
Xuemiao Xu
Xuemiao Xu
Citations: 5
h-index: 1

기존의 비전-언어 내비게이션(VLN) 방법은 일반적으로 자아 중심적인 단계별 방식을 채택하며, 이는 오류 누적 문제를 야기하고 효율성을 제한합니다. 최근 연구에서는 미리 구축된 환경 지도를 활용하려는 시도가 있었지만, 대부분은 메모리 그래프를 점진적으로 업데이트하거나 이산적인 경로 제안을 평가하는 방식을 사용하며, 이는 연속적인 공간 추론을 제한하고 이산적인 병목 현상을 초래합니다. 본 논문에서는 탑다운 VLN(TD-VLN)을 제안하며, 내비게이션을 미리 구축된 탑다운 지도 위에서의 단일 단계 글로벌 경로 계획 문제로 재정의합니다. 이를 위해, 저희는 새로운 R2R-TopDown 데이터셋을 구축했습니다. 저희는 NavOne이라는 통일된 프레임워크를 제안하는데, 이는 다중 모달 지도 위에서 직접적으로 밀집된 경로 확률을 예측하며, 단일의 end-to-end 방식으로 작동합니다. NavOne은 다중 모달 지도 표현을 위한 탑다운 맵 퓨저를 특징으로 하며, 공간 인지 깊이 혼합을 위한 어텐션 잔차 구조를 확장했습니다. R2R-TopDown 데이터셋에 대한 광범위한 실험 결과, NavOne은 기존의 지도 기반 VLN 방법 중 최고 성능을 달성했으며, 계획 단계에서 기존의 지도 기반 방법보다 8배, 자아 중심적인 방법보다 80배 빠른 속도를 보이며, 매우 효율적인 글로벌 내비게이션을 가능하게 합니다.

Original Abstract

Existing Vision-Language Navigation (VLN) methods typically adopt an egocentric, step-by-step paradigm, which struggles with error accumulation and limits efficiency. While recent approaches attempt to leverage pre-built environment maps, they often rely on incrementally updating memory graphs or scoring discrete path proposals, which restricts continuous spatial reasoning and creates discrete bottlenecks. We propose Top-Down VLN (TD-VLN), reformulating navigation as a one-step global path planning problem on pre-built top-down maps, supported by our newly constructed R2R-TopDown dataset. To solve this, we introduce NavOne, a unified framework that directly predicts dense path probabilities over multi-modal maps in a single end-to-end forward pass. NavOne features a Top-Down Map Fuser for joint multi-modal map representation, and extends Attention Residuals for spatial-aware depth mixing. Extensive experiments on R2R-TopDown show that NavOne achieves state-of-the-art performance among map-based VLN methods, with a planning-stage speedup of 8x over existing map-based baselines and 80x over egocentric methods, enabling highly efficient global navigation.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!