이중 고정(Dual-Anchoring): 시각-언어 내비게이션에서의 상태 편차(State Drift) 문제 해결
Dual-Anchoring: Addressing State Drift in Vision-Language Navigation
시각-언어 내비게이션(VLN)은 에이전트가 3차원 환경에서 자연어 지시를 따라 이동하는 것을 요구합니다. 최근의 비디오 대규모 언어 모델(Video-LLM)은 VLN 발전에 크게 기여했지만, 여전히 긴 시나리오에서 상태 편차에 매우 취약합니다. 이러한 경우, 에이전트의 내부 상태가 실제 작업 실행 상태와 동조되지 않아, 방향 감각을 잃고 방황하며 지시에 포함된 필수적인 행동을 수행하지 못하게 됩니다. 우리는 이러한 실패를 두 가지 주요 인지적 결함으로 규정합니다. 첫째, 진행 상황 편차(Progress Drift)는 에이전트가 완료된 부분 목표와 아직 수행해야 할 부분 목표를 구별하지 못하는 현상입니다. 둘째, 기억 편차(Memory Drift)는 에이전트의 과거 정보 표현이 저하되어 방문한 지점을 기억하지 못하게 되는 현상입니다. 본 논문에서는 지시 진행 상황과 과거 정보 표현을 명시적으로 고정하는 이중 고정 프레임워크(Dual-Anchoring Framework)를 제안합니다. 먼저, 진행 상황 편차를 해결하기 위해, 지시 진행 상황 고정(Instruction Progress Anchoring)을 도입하여 에이전트가 완료된 부분 목표와 남은 부분 목표를 명확하게 구분하는 구조화된 텍스트 토큰을 생성하도록 합니다. 둘째, 기억 편차를 완화하기 위해, 랜드마크 중심 세계 모델(Landmark-Centric World Model)을 활용하여 Segment Anything 모델에서 추출된 객체 중심 임베딩을 역으로 예측함으로써, 에이전트가 과거의 관찰 내용을 명시적으로 검증하고 방문한 랜드마크의 고유한 표현을 유지하도록 합니다. 이 프레임워크를 지원하기 위해, 명시적인 진행 상황 설명을 포함하는 360만 개의 샘플과 937,000개의 랜드마크 데이터를 수집하여 두 개의 광범위한 데이터셋을 구축했습니다. 시뮬레이션 및 실제 환경에서의 광범위한 실험 결과, 제안하는 방법이 기존 방법보다 우수함을 입증했으며, 성공률이 15.2% 향상되고, 장거리 경로에서 24.7%의 상당한 성능 향상을 보였습니다. 향후 연구를 돕기 위해, 저희의 코드, 데이터 생성 파이프라인 및 수집된 데이터셋을 공개할 예정입니다.
Vision-Language Navigation(VLN) requires an agent to navigate through 3D environments by following natural language instructions. While recent Video Large Language Models(Video-LLMs) have largely advanced VLN, they remain highly susceptible to State Drift in long scenarios. In these cases, the agent's internal state drifts away from the true task execution state, leading to aimless wandering and failure to execute essential maneuvers in the instruction. We attribute this failure to two distinct cognitive deficits: Progress Drift, where the agent fails to distinguish completed sub-goals from remaining ones, and Memory Drift, where the agent's history representations degrade, making it lose track of visited landmarks. In this paper, we propose a Dual-Anchoring Framework that explicitly anchors the instruction progress and history representations. First, to address progress drift, we introduce Instruction Progress Anchoring, which supervises the agent to generate structured text tokens that delineate completed versus remaining sub-goals. Second, to mitigate memory drift, we propose Memory Landmark Anchoring, which utilizes a Landmark-Centric World Model to retrospectively predict object-centric embeddings extracted by the Segment Anything Model, compelling the agent to explicitly verify past observations and preserve distinct representations of visited landmarks. Facilitating this framework, we curate two extensive datasets: 3.6 million samples with explicit progress descriptions, and 937k grounded landmark data for retrospective verification. Extensive experiments in both simulation and real-world environments demonstrate the superiority of our method, achieving a 15.2% improvement in Success Rate and a remarkable 24.7% gain on long-horizon trajectories. To facilitate further research, we will release our code, data generation pipelines, and the collected datasets.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.