NaVIDA: 역역학 증강을 이용한 시각-언어 기반 탐색
\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation
시각-언어 기반 탐색(VLN)은 에이전트가 자연어 지시사항을 해석하고 시각적으로 풍부한 환경에서 일관성 있게 행동하도록 요구합니다. 그러나 대부분의 기존 방법은 명시적으로 행동이 후속 시각적 관찰에 미치는 인과적 영향을 모델링하지 않고, 반응적인 상태-행동 매핑에 의존합니다. 이러한 시각-행동 인과 관계의 부족은 에이전트가 자신의 행동으로 인해 발생하는 시각적 변화를 예측하지 못하게 하여 불안정한 행동, 약한 일반화 및 경로를 따라 누적되는 오류를 초래합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 정책 학습을 행동 기반 시각 역학 및 적응적 실행과 결합하는 통합 VLN 프레임워크인 NaVIDA(Navigation with Inverse Dynamics Augmentation)를 소개합니다. NaVIDA는 훈련 과정에서 덩어리 기반 역역학 감독 신호를 사용하여 시각적 변화와 해당 행동 간의 인과 관계를 학습합니다. 이러한 감독 신호를 구조화하고 효과적인 계획 범위를 확장하기 위해, NaVIDA는 계층적 확률적 행동 덩어리화(HPAC)를 사용합니다. HPAC은 경로를 다단계 덩어리로 구성하고, 차별적이고 장거리의 시각적 변화 단서를 제공합니다. 또한, 추론 단계에서 오류 누적을 줄이고 행동을 안정화하기 위해, 엔트로피 기반 메커니즘이 행동 덩어리의 실행 범위를 적응적으로 설정합니다. 광범위한 실험 결과, NaVIDA는 더 적은 파라미터(3B vs. 8B)로 최첨단 방법보다 우수한 탐색 성능을 달성하는 것으로 나타났습니다. 실제 로봇 평가를 통해 본 연구의 실용적인 타당성과 효과성이 입증되었습니다. 논문 채택 시 코드와 데이터가 공개될 예정입니다.
Vision-and-Language Navigation (VLN) requires agents to interpret natural language instructions and act coherently in visually rich environments. However, most existing methods rely on reactive state-action mappings without explicitly modeling how actions causally transform subsequent visual observations. Lacking such vision-action causality, agents cannot anticipate the visual changes induced by its own actions, leading to unstable behaviors, weak generalization, and cumulative error along trajectory. To address these issues, we introduce \textsc{NaVIDA} (\textbf{Nav}igation with \textbf{I}nverse \textbf{D}ynamics \textbf{A}ugmentation), a unified VLN framework that couples policy learning with action-grounded visual dynamics and adaptive execution. \textsc{NaVIDA} augments training with chunk-based inverse-dynamics supervision to learn causal relationship between visual changes and corresponding actions. To structure this supervision and extend the effective planning range, \textsc{NaVIDA} employs hierarchical probabilistic action chunking (HPAC), which organizes trajectories into multi-step chunks and provides discriminative, longer-range visual-change cues. To further curb error accumulation and stabilize behavior at inference, an entropy-guided mechanism adaptively sets the execution horizon of action chunks. Extensive experiments show that \textsc{NaVIDA} achieves superior navigation performance compared to state-of-the-art methods with fewer parameters (3B vs. 8B). Real-world robot evaluations further validate the practical feasibility and effectiveness of our approach. Code and data will be available upon acceptance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.