WorldMAP: 생성적 세계 모델을 활용한 시각-언어 내비게이션 경로 예측의 부트스트래핑
WorldMAP: Bootstrapping Vision-Language Navigation Trajectory Prediction with Generative World Models
시각-언어 모델(VLMs)과 생성적 세계 모델은 로봇 내비게이션 분야에 새로운 가능성을 제시하고 있습니다. VLMs는 점점 더 직접적인 계획 도구 또는 경로 예측기로 사용되고 있으며, 세계 모델은 미래 시점을 예측하여 장기적인 추론을 지원합니다. 그러나 단일의 1인칭 시점에서 신뢰할 수 있는 경로를 예측하는 것은 여전히 어려운 과제입니다. 현재의 VLMs는 종종 불안정한 경로를 생성하며, 세계 모델은 그럴듯한 미래 시나리오를 생성할 수 있지만, 내비게이션 학습에 필요한 구체적인 정보를 직접적으로 제공하지는 않습니다. 이러한 문제를 해결하기 위해, 생성된 미래 정보를 어떻게 활용하여 실제 경로 예측을 위한 지침으로 만들 수 있는가에 대한 핵심 질문이 제기됩니다. 본 논문에서는 WorldMAP이라는 교사-학생 프레임워크를 제안합니다. 이 프레임워크는 세계 모델에서 생성된 미래 정보를 지속적인 의미-공간 구조와 계획 기반의 감독 신호로 변환합니다. 세계 모델 기반의 교사는 생성된 비디오에서 의미-공간적 기억을 구축하고, 중요한 목표 및 장애물을 인식하며, 명시적인 계획을 통해 경로의 예비 레이블을 생성합니다. 경량화된 학생 모델은 다중 가설 경로 예측 헤드를 사용하여 시각-언어 입력으로부터 직접 내비게이션 경로를 예측하도록 훈련됩니다. Target-Bench 데이터셋에서 WorldMAP은 비교 대상 방법 중 가장 우수한 ADE(Average Displacement Error) 및 FDE(Final Displacement Error)를 달성했으며, 기존의 최적 성능 모델보다 각각 18.0% 및 42.1%의 성능 향상을 보였습니다. 또한, 오픈 소스 VLM 모델을 사용하여 독점 모델과 경쟁할 수 있는 수준의 성능을 달성했습니다. 더욱 중요하게는, 본 연구 결과는 로봇 내비게이션에서 세계 모델의 가치가 즉각적으로 실행 가능한 시뮬레이션된 데이터를 제공하는 것보다, 내비게이션 학습을 위한 구조화된 감독 신호를 생성하는 데 더 큰 의미가 있을 수 있음을 시사합니다.
Vision-language models (VLMs) and generative world models are opening new opportunities for embodied navigation. VLMs are increasingly used as direct planners or trajectory predictors, while world models support look-ahead reasoning by imagining future views. Yet predicting a reliable trajectory from a single egocentric observation remains challenging. Current VLMs often generate unstable trajectories, and world models, though able to synthesize plausible futures, do not directly provide the grounded signals needed for navigation learning. This raises a central question: how can generated futures be turned into supervision for grounded trajectory prediction? We present WorldMAP, a teacher--student framework that converts world-model-generated futures into persistent semantic-spatial structure and planning-derived supervision. Its world-model-driven teacher builds semantic-spatial memory from generated videos, grounds task-relevant targets and obstacles, and produces trajectory pseudo-labels through explicit planning. A lightweight student with a multi-hypothesis trajectory head is then trained to predict navigation trajectories directly from vision-language inputs. On Target-Bench, WorldMAP achieves the best ADE and FDE among compared methods, reducing ADE by 18.0% and FDE by 42.1% relative to the best competing baseline, while lifting a small open-source VLM to DTW performance competitive with proprietary models. More broadly, the results suggest that, in embodied navigation, the value of world models may lie less in supplying action-ready imagined evidence than in synthesizing structured supervision for navigation learning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.