MapDream: 시각-언어 네비게이션을 위한 작업 기반 지도 학습
MapDream: Task-Driven Map Learning for Vision-Language Navigation
시각-언어 네비게이션(VLN)은 에이전트가 부분적으로 관찰 가능한 3차원 환경에서 자연어 지시를 따르도록 요구하며, 이는 국소적인 인식 범위를 넘어 공간적 맥락을 통합하는 지도 표현을 필요로 합니다. 그러나 대부분의 기존 접근 방식은 네비게이션 정책과 독립적으로 구축된 수동으로 제작된 지도를 사용합니다. 우리는 지도가 포괄적인 재구현이 아니라, 네비게이션 목표에 의해 직접 형성되는 학습된 표현이어야 한다고 주장합니다. 이러한 통찰력을 바탕으로, 우리는 지도 구축을 오토리그래시브(autoregressive) 방식으로 제작된 탑다운(bird's-eye-view, BEV) 이미지 합성으로 정의하는 지도-루프 프레임워크인 MapDream을 제안합니다. 이 프레임워크는 지도 생성과 행동 예측을 동시에 학습하여, 환경적 맥락을 네비게이션에 중요한 요소만 유지하는 간결한 3채널 BEV 지도에 압축합니다. 지도-제어 인터페이스의 안정적인 학습을 위해 지도 학습(supervised pre-training)을 사용하고, 오토리그래시브 설계는 강화 학습(reinforcement fine-tuning)을 통한 엔드-투-엔드 공동 최적화를 가능하게 합니다. R2R-CE 및 RxR-CE 데이터셋에 대한 실험 결과는 최첨단 단안(monocular) 성능을 달성했으며, 이는 작업 기반 생성적 지도 학습의 유효성을 입증합니다.
Vision-Language Navigation (VLN) requires agents to follow natural language instructions in partially observed 3D environments, motivating map representations that aggregate spatial context beyond local perception. However, most existing approaches rely on hand-crafted maps constructed independently of the navigation policy. We argue that maps should instead be learned representations shaped directly by navigation objectives rather than exhaustive reconstructions. Based on this insight, we propose MapDream, a map-in-the-loop framework that formulates map construction as autoregressive bird's-eye-view (BEV) image synthesis. The framework jointly learns map generation and action prediction, distilling environmental context into a compact three-channel BEV map that preserves only navigation-critical affordances. Supervised pre-training bootstraps a reliable mapping-to-control interface, while the autoregressive design enables end-to-end joint optimization through reinforcement fine-tuning. Experiments on R2R-CE and RxR-CE achieve state-of-the-art monocular performance, validating task-driven generative map learning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.