2601.07470v1 Jan 12, 2026 cs.AI

기억하는 법 학습하기: 구조화되고 전이 가능한 에이전트 기억을 위한 메타 인지 관리 방법

Learning How to Remember: A Meta-Cognitive Management Method for Structured and Transferable Agent Memory

Sirui Liang
Sirui Liang
Citations: 10
h-index: 2
Pengfei Cao
Pengfei Cao
Institute of Automation, Chinese Academy of Sciences
Citations: 1,512
h-index: 19
Jian Zhao
Jian Zhao
Citations: 3
h-index: 1
Jun Zhao
Jun Zhao
Citations: 3
h-index: 1
Kang Liu
Kang Liu
Citations: 4,342
h-index: 28
Wenhao Teng
Wenhao Teng
Citations: 7
h-index: 2
Xiangwen Liao
Xiangwen Liao
Citations: 323
h-index: 7

대규모 언어 모델(LLM) 에이전트는 장기적인 의사 결정 작업을 해결하기 위해 축적된 기억에 점점 더 의존하고 있습니다. 그러나 대부분의 기존 접근 방식은 기억을 고정된 표현으로 저장하고 단일하거나 암시적인 추상화 수준에서 재사용하므로, 이는 일반화를 제한하고 분포 변화(distribution shift) 발생 시 종종 부정적 전이(negative transfer)를 초래합니다. 본 논문은 기억 추상화를 고정된 설계 선택이 아닌 학습 가능한 인지 기술로 취급하는 메타 인지 기억 추상화 방법(MCMA)을 제안합니다. MCMA는 고정된 태스크 모델과 학습된 기억 코파일럿(memory copilot)을 결합하여 태스크 실행과 기억 관리를 분리합니다. 기억 코파일럿은 직접 선호 최적화(direct preference optimization)를 사용하여 훈련되며, 기억이 어떻게 구조화되고, 추상화되며, 재사용되어야 하는지를 결정합니다. 또한 기억들은 추상화 수준의 계층 구조로 조직화되어 태스크 유사성에 기반한 선택적 재사용을 가능하게 합니다. 전이 가능한 기억이 없는 경우, MCMA는 기억 코파일럿을 전이함으로써 기억을 추상화하고 관리하는 능력을 전이합니다. ALFWorld, ScienceWorld 및 BabyAI에 대한 실험 결과는 여러 기준선(baseline)과 비교하여 성능, 분포 외(out-of-distribution) 일반화 및 교차 태스크 전이에서 상당한 개선이 있음을 입증합니다.

Original Abstract

Large language model (LLM) agents increasingly rely on accumulated memory to solve long-horizon decision-making tasks. However, most existing approaches store memory in fixed representations and reuse it at a single or implicit level of abstraction, which limits generalization and often leads to negative transfer when distribution shift. This paper proposes the Meta-Cognitive Memory Abstraction method (MCMA), which treats memory abstraction as a learnable cognitive skill rather than a fixed design choice. MCMA decouples task execution from memory management by combining a frozen task model with a learned memory copilot. The memory copilot is trained using direct preference optimization, it determines how memories should be structured, abstracted, and reused. Memories are further organized into a hierarchy of abstraction levels, enabling selective reuse based on task similarity. When no memory is transferable, MCMA transfers the ability to abstract and manage memory by transferring the memory copilot. Experiments on ALFWorld, ScienceWorld, and BabyAI demonstrate substantial improvements in performance, out-of-distribution generalization, and cross-task transfer over several baselines.

0 Citations
0 Influential
14 Altmetric
70.0 Score

AI Analysis

Korean Summary

이 논문은 LLM 에이전트가 복잡하고 긴 호흡의 작업을 수행할 때 기억을 효과적으로 축적하고 재사용할 수 있도록 돕는 '메타 인지 메모리 추상화(MCMA)' 방법론을 제안합니다. 기존 연구들이 기억을 고정된 형태로 저장하여 새로운 환경에서의 일반화 성능이 떨어지는 한계를 극복하기 위해, MCMA는 기억의 추상화 과정을 '학습 가능한 인지 기술'로 정의합니다. 이 시스템은 작업 실행을 담당하는 'Task Model'과 메모리 관리를 담당하는 'Memory Copilot'으로 분리되어 있으며, Memory Copilot은 직접 선호 최적화(DPO)를 통해 경험을 구조화(트리, 체인 등)하고 적절한 수준으로 추상화하는 방법을 학습합니다. 실험 결과, MCMA는 ALFWorld, ScienceWorld 등의 벤치마크에서 에이전트의 성능과 효율성을 크게 향상시켰으며, 학습된 Copilot을 다른 도메인으로 이식했을 때도 뛰어난 전이 학습 능력을 보여주었습니다.

Key Innovations

  • 메모리 추상화를 고정된 설계가 아닌 '학습 가능한 인지 기술'로 전환하여 처리
  • 작업 실행(Task Model)과 메모리 관리(Memory Copilot)의 기능을 분리하고, Copilot을 DPO(Direct Preference Optimization)로 학습
  • 트리(Tree), 체인(Chain), 자연어 등 다중 구조(Multi-structure) 및 계층적 추상화를 통한 유연한 기억 표현
  • 유사도가 낮은 새로운 작업 환경에서도 저장된 기억이 아닌 '기억을 관리하는 능력(Copilot)' 자체를 전이(Transfer)하여 적응력 극대화

Learning & Inference Impact

학습 과정에서 MCMA는 메인 작업 모델(Task Model)을 고정(Frozen)한 상태로 두고 Memory Copilot만을 별도로 학습시키므로, 에이전트의 정책 학습과 기억 관리가 분리되어 치명적 망각(Catastrophic Forgetting) 위험을 줄입니다. Copilot은 성공 및 실패 궤적을 바탕으로 어떤 형태의 기억이 미래의 작업 수행에 더 유용한지를 DPO를 통해 학습합니다. 추론 단계에서는 현재 작업과 과거 기억의 유사도를 분석하여, 유사도가 높으면 구체적인 에피소드 기억을, 유사도가 낮으면 상위 수준의 추상화된 지식을 선택적으로 인출합니다. 이를 통해 컨텍스트 윈도우의 낭비를 줄이고 노이즈를 억제하며, 훈련 데이터가 없는 새로운 도메인에서도 훈련된 Copilot을 통해 즉각적으로 유효한 구조적 지식을 생성하고 활용할 수 있게 합니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!