SpatialAnt: 능동적인 장면 재구성 및 시각적 예측을 통한 자율적인 제로샷 로봇 내비게이션
SpatialAnt: Autonomous Zero-Shot Robot Navigation via Active Scene Reconstruction and Visual Anticipation
최근 멀티모달 대규모 언어 모델(MLLM)의 발전으로 비전-언어 내비게이션(VLN)은 제로샷 내비게이션을 가능하게 했습니다. 최근 연구에서는 전역적인 장면 정보를 활용하여 유망한 결과를 보여주는 탐색 기반 제로샷 방법들이 제시되었지만, 이러한 방법들은 고품질의 사람이 직접 만든 장면 재구성에 의존하며, 이는 실제 로봇 환경에 적용하기에는 비현실적입니다. 로봇은 새로운 환경에 직면했을 때, 자체적으로 사전 탐색을 통해 자신의 정보를 구축해야 합니다. 그러나 이러한 자체 구축 정보는 필연적으로 불완전하고 노이즈가 많으며, 이는 고품질 장면 재구성에 의존하는 방법들의 성능을 심각하게 저하시킵니다. 이러한 문제점을 해결하기 위해, 우리는 불완전한 자체 재구성과 안정적인 실행 사이의 간극을 좁히는 제로샷 내비게이션 프레임워크인 SpatialAnt을 제안합니다. SpatialAnt은 단안 카메라 기반 재구성을 위한 절대적인 메트릭 스케일을 복구하는 물리적 기반 전략을 도입합니다. 또한, 노이즈가 많은 자체 재구성된 장면을 절대적인 공간 참조점으로 취급하는 대신, 새로운 시각적 예측 메커니즘을 제안합니다. 이 메커니즘은 노이즈가 많은 포인트 클라우드를 활용하여 미래의 관찰 결과를 예측하고, 에이전트가 반사실적 추론을 수행하여 인간의 지시와 모순되는 경로를 제거할 수 있도록 합니다. 시뮬레이션 및 실제 환경에서의 광범위한 실험 결과, SpatialAnt이 기존의 제로샷 방법들보다 훨씬 뛰어난 성능을 보임을 입증했습니다. R2R-CE 데이터셋에서 66%의 성공률(SR)을, RxR-CE 데이터셋에서 50.8%의 성공률을 달성했습니다. Hello Robot 로봇에 SpatialAnt을 탑재한 실제 환경 테스트에서도 52%의 성공률을 달성하며, 프레임워크의 효율성과 효과성을 확인했습니다.
Vision-and-Language Navigation (VLN) has recently benefited from Multimodal Large Language Models (MLLMs), enabling zero-shot navigation. While recent exploration-based zero-shot methods have shown promising results by leveraging global scene priors, they rely on high-quality human-crafted scene reconstructions, which are impractical for real-world robot deployment. When encountering an unseen environment, a robot should build its own priors through pre-exploration. However, these self-built reconstructions are inevitably incomplete and noisy, which severely degrade methods that depend on high-quality scene reconstructions. To address these issues, we propose SpatialAnt, a zero-shot navigation framework designed to bridge the gap between imperfect self-reconstructions and robust execution. SpatialAnt introduces a physical grounding strategy to recover the absolute metric scale for monocular-based reconstructions. Furthermore, rather than treating the noisy self-reconstructed scenes as absolute spatial references, we propose a novel visual anticipation mechanism. This mechanism leverages the noisy point clouds to render future observations, enabling the agent to perform counterfactual reasoning and prune paths that contradict human instructions. Extensive experiments in both simulated and real-world environments demonstrate that SpatialAnt significantly outperforms existing zero-shot methods. We achieve a 66% Success Rate (SR) on R2R-CE and 50.8% SR on RxR-CE benchmarks. Physical deployment on a Hello Robot further confirms the efficiency and efficacy of our framework, achieving a 52% SR in challenging real-world settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.