장기 기억을 활용한 탐색: 임바디드 탐색을 위한 벤치마크 및 멀티모달 LLM 기반 강화 학습 프레임워크
Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration
이상적인 임바디드 에이전트는 장기적이고 복잡한 작업을 처리하기 위해 평생 학습 능력을 갖추어야 하며, 이를 통해 일반적인 환경에서 지속적으로 작동할 수 있어야 한다. 이는 에이전트가 주어진 작업을 정확하게 수행하는 것뿐만 아니라, 장기 일화 기억(episodic memory)을 활용하여 의사 결정을 최적화할 것을 요구한다. 그러나 기존의 주류 원샷(one-shot) 임바디드 작업들은 주로 작업 완료 결과에만 초점을 맞추고 있어, 중요한 탐색 및 기억 활용 과정은 간과하고 있다. 이를 해결하기 위해, 우리는 에이전트의 탐색적 인지와 의사 결정 행동을 통합하여 평생 학습을 촉진하는 것을 목표로 하는 '장기 기억 임바디드 탐색(LMEE)'을 제안한다. 또한 임바디드 탐색의 과정과 결과를 포괄적으로 평가하기 위해 다중 목표 내비게이션과 기억 기반 질의응답을 통합한 데이터셋 및 벤치마크인 'LMEE-Bench'를 구축하였다. 에이전트의 기억 회상 및 능동적 탐색 능력을 향상시키기 위해, 우리는 강화 학습을 통해 멀티모달 대규모 언어 모델을 미세 조정하여 능동적인 기억 조회를 유도하는 새로운 방법인 'MemoryExplorer'를 제안한다. 행동 예측, 프론티어 선택, 질의응답을 포함하는 멀티태스크 보상 함수를 통합함으로써 우리 모델은 능동적인 탐색을 수행한다. 최신 임바디드 탐색 모델들과의 광범위한 실험을 통해, 우리의 접근 방식이 장기 임바디드 작업에서 상당한 이점을 가짐을 입증하였다.
An ideal embodied agent should possess lifelong learning capabilities to handle long-horizon and complex tasks, enabling continuous operation in general environments. This not only requires the agent to accurately accomplish given tasks but also to leverage long-term episodic memory to optimize decision-making. However, existing mainstream one-shot embodied tasks primarily focus on task completion results, neglecting the crucial process of exploration and memory utilization. To address this, we propose Long-term Memory Embodied Exploration (LMEE), which aims to unify the agent's exploratory cognition and decision-making behaviors to promote lifelong learning.We further construct a corresponding dataset and benchmark, LMEE-Bench, incorporating multi-goal navigation and memory-based question answering to comprehensively evaluate both the process and outcome of embodied exploration. To enhance the agent's memory recall and proactive exploration capabilities, we propose MemoryExplorer, a novel method that fine-tunes a multimodal large language model through reinforcement learning to encourage active memory querying. By incorporating a multi-task reward function that includes action prediction, frontier selection, and question answering, our model achieves proactive exploration. Extensive experiments against state-of-the-art embodied exploration models demonstrate that our approach achieves significant advantages in long-horizon embodied tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.