CMMR-VLN: 지속적인 다중 모달 메모리 검색을 통한 시각-언어 내비게이션
CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval
대규모 언어 모델(LLM)이 시각-언어 내비게이션(VLN)에 도입되어 지시 사항 이해 및 일반화 능력을 향상시키지만, 기존 LLM 기반 VLN은 관련 사전 경험을 선택적으로 회상하고 활용하여 내비게이션 작업을 돕는 능력이 부족하여, 장기적인 시나리오 및 익숙하지 않은 환경에서의 성능을 제한합니다. 본 연구에서는 LLM 에이전트에 구조화된 메모리 및 성찰 능력을 부여하는 VLN 프레임워크인 CMMR-VLN (Continual Multimodal Memory Retrieval based VLN)을 제안합니다. 구체적으로, CMMR-VLN은 내비게이션 과정에서 관련 경험을 검색하기 위해 파노라마 시각 이미지와 중요한 랜드마크로 인덱싱된 다중 모달 경험 메모리를 구축하고, 숙련된 인간 내비게이터가 사전 지식을 활용하는 방식을 모방하는 검색 기반 생성 파이프라인을 도입하며, 성공적인 경로 전체와 실패 시 중요한 초기 실수를 선택적으로 저장하는 성찰 기반 메모리 업데이트 전략을 통합합니다. 광범위한 실험 결과, 시뮬레이션 및 실제 환경에서 NavGPT, MapGPT, DiscussNav 대비 평균 성공률이 각각 52.9%, 20.9% 및 20.9% 향상되었으며, 200%, 50% 및 50% 향상되었음을 보여주며, 이는 CMMR-VLN이 핵심적인 VLN 프레임워크로서 큰 잠재력을 가지고 있음을 시사합니다.
Although large language models (LLMs) are introduced into vision-and-language navigation (VLN) to improve instruction comprehension and generalization, existing LLM- based VLN lacks the ability to selectively recall and use relevant priori experiences to help navigation tasks, limiting their performance in long-horizon and unfamiliar scenarios. In this work, we propose CMMR-VLN (Continual Multimodal Memory Retrieval based VLN), a VLN framework that endows LLM agents with structured memory and reflection capabilities. Specifically, the CMMR-VLN constructs a multimodal experi- ence memory indexed by panoramic visual images and salient landmarks to retrieve relevant experiences during navigation, introduces a retrieved-augmented generation pipeline to mimick how experienced human navigators leverage priori knowledge, and incorporates a reflection-based memory update strategy that selectively stores complete successful paths and the key initial mistake in failure cases. Comprehensive tests illustrate average success rate improvements of 52.9%, 20.9% and 20.9%, and 200%, 50% and 50% over the NavGPT, the MapGPT, and the DiscussNav in simulation and real tests, respectively eluci- dating the great potential of the CMMR-VLN as a backbone VLN framework.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.