2602.19320v1 Feb 22, 2026 cs.CL

에이전틱 메모리 해부: 평가 및 시스템 한계에 대한 분류 체계 및 실증적 분석

Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Dongming Jiang
Dongming Jiang
Citations: 6
h-index: 2
Yi Li
Yi Li
Citations: 47
h-index: 4
Bingzhe Li
Bingzhe Li
Citations: 7
h-index: 2
Jinxin Yang
Jinxin Yang
Citations: 48
h-index: 3
Ayushi Kishore
Ayushi Kishore
Citations: 0
h-index: 0
Alysa Zhao
Alysa Zhao
Citations: 0
h-index: 0
Xue Hu
Xue Hu
Citations: 1
h-index: 1
Feng Chen
Feng Chen
Citations: 3
h-index: 1
Qiannan Li
Qiannan Li
Citations: 6
h-index: 2
Songtao Wei
Songtao Wei
Citations: 8
h-index: 1
Dingyi Kang
Dingyi Kang
Citations: 4
h-index: 2

에이전틱 메모리 시스템은 대형 언어 모델(LLM) 에이전트가 긴 상호작용 전반에 걸쳐 상태를 유지할 수 있게 하며, 고정된 컨텍스트 윈도우를 넘어선 장기 추론 및 개인화를 지원한다. 아키텍처의 급격한 발전에도 불구하고, 이러한 시스템의 실증적 기반은 여전히 취약하다. 기존 벤치마크는 규모가 불충분한 경우가 많고, 평가 지표는 의미론적 유용성과 불일치하며, 백본 모델에 따라 성능 편차가 크게 나타나고, 시스템 수준의 비용이 자주 간과된다. 본 서베이는 아키텍처 및 시스템 관점에서 에이전틱 메모리에 대한 구조화된 분석을 제시한다. 먼저 우리는 4가지 메모리 구조를 기반으로 한 MAG 시스템의 간결한 분류 체계를 소개한다. 그런 다음 벤치마크 포화 효과, 지표 타당성 및 평가자 민감도, 백본 의존적 정확도, 메모리 유지 관리로 인해 발생하는 지연 시간 및 처리량 오버헤드를 포함하여 현재 시스템을 제한하는 주요 문제점들을 분석한다. 본 서베이는 메모리 구조를 실증적 한계와 연결함으로써, 현재의 에이전틱 메모리 시스템이 종종 이론적 기대치에 미치지 못하는 이유를 명확히 하고 보다 신뢰할 수 있는 평가와 확장 가능한 시스템 설계를 위한 방향을 제시한다.

Original Abstract

Agentic memory systems enable large language model (LLM) agents to maintain state across long interactions, supporting long-horizon reasoning and personalization beyond fixed context windows. Despite rapid architectural development, the empirical foundations of these systems remain fragile: existing benchmarks are often underscaled, evaluation metrics are misaligned with semantic utility, performance varies significantly across backbone models, and system-level costs are frequently overlooked. This survey presents a structured analysis of agentic memory from both architectural and system perspectives. We first introduce a concise taxonomy of MAG systems based on four memory structures. Then, we analyze key pain points limiting current systems, including benchmark saturation effects, metric validity and judge sensitivity, backbone-dependent accuracy, and the latency and throughput overhead introduced by memory maintenance. By connecting the memory structure to empirical limitations, this survey clarifies why current agentic memory systems often underperform their theoretical promise and outlines directions for more reliable evaluation and scalable system design.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!