마인크래프트 게임 환경에서 멀티모달 LLM 에이전트의 경험 전이
Experience Transfer for Multimodal LLM Agents in Minecraft Game
복잡한 게임 환경에서 작동하는 멀티모달 LLM 에이전트는 새로운 작업을 효율적으로 해결하기 위해 지속적으로 과거 경험을 재사용해야 합니다. 본 연구에서는 에이전트가 메모리를 단순히 정적인 기록의 저장소로 취급하는 것이 아니라, 이전 상호 작용으로부터 실행 가능한 지식을 도출할 수 있도록 하는 전이 지향적 메모리 프레임워크인 Echo를 제안합니다. 전이를 명시적으로 만들기 위해, Echo는 재사용 가능한 지식을 구조, 속성, 프로세스, 기능 및 상호 작용의 다섯 가지 차원으로 분해합니다. 이러한 구조는 에이전트가 서로 다른 작업에 걸쳐 반복되는 패턴을 식별하고, 새로운 상황에서 어떤 이전 경험이 여전히 적용 가능한지 추론할 수 있도록 합니다. 이러한 구조를 바탕으로, Echo는 In-Context Analogy Learning (ICAL)을 활용하여 관련 경험을 검색하고, 문맥적 예제를 통해 새로운 작업에 이를 적용합니다. 마인크래프트 환경에서의 실험 결과, Echo는 초기 학습 환경에서 객체 잠금 해제 작업에 대해 1.3배에서 1.7배의 속도 향상을 달성했습니다. 또한, Echo는 전이 가능한 경험을 습득한 후 짧은 시간 간격 내에 여러 유사한 항목을 빠르게 잠금 해제하는 '폭발적' 체인 잠금 해제 현상을 보였습니다. 이러한 결과는 경험 전이가 복잡한 상호 작용 환경에서 멀티모달 LLM 에이전트의 효율성과 적응성을 향상시키는 유망한 방향임을 시사합니다.
Multimodal LLM agents operating in complex game environments must continually reuse past experience to solve new tasks efficiently. In this work, we propose Echo, a transfer-oriented memory framework that enables agents to derive actionable knowledge from prior interactions rather than treating memory as a passive repository of static records. To make transfer explicit, Echo decomposes reusable knowledge into five dimensions: structure, attribute, process, function, and interaction. This formulation allows the agent to identify recurring patterns shared across different tasks and infer what prior experience remains applicable in new situations. Building on this formulation, Echo leverages In-Context Analogy Learning (ICAL) to retrieve relevant experiences and adapt them to unseen tasks through contextual examples. Experiments in Minecraft show that, under a from-scratch learning setting, Echo achieves a 1.3x to 1.7x speed-up on object-unlocking tasks. Moreover, Echo exhibits a burst-like chain-unlocking phenomenon, rapidly unlocking multiple similar items within a short time interval after acquiring transferable experience. These results suggest that experience transfer is a promising direction for improving the efficiency and adaptability of multimodal LLM agents in complex interactive environments.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.