PROSPECT: 의미-공간 융합 및 잠재 예측 표현을 통한 통합 스트리밍 시각-언어 탐색
PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation
다중 모드 대규모 언어 모델(MLLM)은 제로샷 엔드투엔드 시각-언어 탐색(VLN) 성능을 향상시켰지만, 강력한 탐색을 위해서는 의미 이해뿐만 아니라 환경 동역학과 공간 구조에 대한 예측 모델링이 필요합니다. 본 논문에서는 스트리밍 시각-언어-행동(VLA) 정책과 잠재 예측 표현 학습을 결합한 통합 스트리밍 탐색 에이전트인 PROSPECT를 제안합니다. PROSPECT는 CUT3R을 스트리밍 3D 기반 공간 인코더로 사용하여 장기 컨텍스트 및 절대 크기의 공간 특징을 생성하고, 이를 크로스 어텐션을 통해 SigLIP의 의미 특징과 융합합니다. 학습 과정에서, 스트리밍 컨텍스트를 쿼리하고 다음 단계의 2D 및 3D 잠재 특징(픽셀이나 명시적인 모드가 아닌)을 예측하는 학습 가능한 스트림 쿼리 토큰을 도입합니다. 예측 브랜치는 추론 오버헤드 없이 내부 표현을 형성합니다. VLN-CE 벤치마크 및 실제 로봇 환경에서의 실험 결과는 최첨단 성능과 다양한 조명 조건 하에서 향상된 장기적인 안정성을 보여줍니다. 곧 코드를 공개할 예정입니다.
Multimodal large language models (MLLMs) have advanced zero-shot end-to-end Vision-Language Navigation (VLN), yet robust navigation requires not only semantic understanding but also predictive modeling of environment dynamics and spatial structure. We propose PROSPECT, a unified streaming navigation agent that couples a streaming Vision-Language-Action (VLA) policy with latent predictive representation learning. PROSPECT uses CUT3R as a streaming 3D foundation spatial encoder to produce long-context, absolute-scale spatial features, and fuses them with SigLIP semantic features via cross-attention. During training, we introduce learnable stream query tokens that query the streaming context and predict next-step 2D and 3D latent features (rather than pixels or explicit modalities), supervised in the latent spaces of frozen SigLIP and CUT3R teachers. The predictive branch shapes internal representations without inference overhead. Experiments on VLN-CE benchmarks and real-robot deployment demonstrate state-of-the-art performance and improved long-horizon robustness under diverse lighting. We will release code for the community soon.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.