기억하는 법 학습하기: 구조화되고 전이 가능한 에이전트 기억을 위한 메타 인지 관리 방법
Learning How to Remember: A Meta-Cognitive Management Method for Structured and Transferable Agent Memory
대규모 언어 모델(LLM) 에이전트는 장기적인 의사 결정 작업을 해결하기 위해 축적된 기억에 점점 더 의존하고 있습니다. 그러나 대부분의 기존 접근 방식은 기억을 고정된 표현으로 저장하고 단일하거나 암시적인 추상화 수준에서 재사용하므로, 이는 일반화를 제한하고 분포 변화(distribution shift) 발생 시 종종 부정적 전이(negative transfer)를 초래합니다. 본 논문은 기억 추상화를 고정된 설계 선택이 아닌 학습 가능한 인지 기술로 취급하는 메타 인지 기억 추상화 방법(MCMA)을 제안합니다. MCMA는 고정된 태스크 모델과 학습된 기억 코파일럿(memory copilot)을 결합하여 태스크 실행과 기억 관리를 분리합니다. 기억 코파일럿은 직접 선호 최적화(direct preference optimization)를 사용하여 훈련되며, 기억이 어떻게 구조화되고, 추상화되며, 재사용되어야 하는지를 결정합니다. 또한 기억들은 추상화 수준의 계층 구조로 조직화되어 태스크 유사성에 기반한 선택적 재사용을 가능하게 합니다. 전이 가능한 기억이 없는 경우, MCMA는 기억 코파일럿을 전이함으로써 기억을 추상화하고 관리하는 능력을 전이합니다. ALFWorld, ScienceWorld 및 BabyAI에 대한 실험 결과는 여러 기준선(baseline)과 비교하여 성능, 분포 외(out-of-distribution) 일반화 및 교차 태스크 전이에서 상당한 개선이 있음을 입증합니다.
Large language model (LLM) agents increasingly rely on accumulated memory to solve long-horizon decision-making tasks. However, most existing approaches store memory in fixed representations and reuse it at a single or implicit level of abstraction, which limits generalization and often leads to negative transfer when distribution shift. This paper proposes the Meta-Cognitive Memory Abstraction method (MCMA), which treats memory abstraction as a learnable cognitive skill rather than a fixed design choice. MCMA decouples task execution from memory management by combining a frozen task model with a learned memory copilot. The memory copilot is trained using direct preference optimization, it determines how memories should be structured, abstracted, and reused. Memories are further organized into a hierarchy of abstraction levels, enabling selective reuse based on task similarity. When no memory is transferable, MCMA transfers the ability to abstract and manage memory by transferring the memory copilot. Experiments on ALFWorld, ScienceWorld, and BabyAI demonstrate substantial improvements in performance, out-of-distribution generalization, and cross-task transfer over several baselines.
AI Analysis
Korean Summary
Key Innovations
- 메모리 추상화를 고정된 설계가 아닌 '학습 가능한 인지 기술'로 전환하여 처리
- 작업 실행(Task Model)과 메모리 관리(Memory Copilot)의 기능을 분리하고, Copilot을 DPO(Direct Preference Optimization)로 학습
- 트리(Tree), 체인(Chain), 자연어 등 다중 구조(Multi-structure) 및 계층적 추상화를 통한 유연한 기억 표현
- 유사도가 낮은 새로운 작업 환경에서도 저장된 기억이 아닌 '기억을 관리하는 능력(Copilot)' 자체를 전이(Transfer)하여 적응력 극대화
Learning & Inference Impact
학습 과정에서 MCMA는 메인 작업 모델(Task Model)을 고정(Frozen)한 상태로 두고 Memory Copilot만을 별도로 학습시키므로, 에이전트의 정책 학습과 기억 관리가 분리되어 치명적 망각(Catastrophic Forgetting) 위험을 줄입니다. Copilot은 성공 및 실패 궤적을 바탕으로 어떤 형태의 기억이 미래의 작업 수행에 더 유용한지를 DPO를 통해 학습합니다. 추론 단계에서는 현재 작업과 과거 기억의 유사도를 분석하여, 유사도가 높으면 구체적인 에피소드 기억을, 유사도가 낮으면 상위 수준의 추상화된 지식을 선택적으로 인출합니다. 이를 통해 컨텍스트 윈도우의 낭비를 줄이고 노이즈를 억제하며, 훈련 데이터가 없는 새로운 도메인에서도 훈련된 Copilot을 통해 즉각적으로 유효한 구조적 지식을 생성하고 활용할 수 있게 합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.