SimpleMem: LLM 에이전트를 위한 효율적인 장기 기억 시스템
SimpleMem: Efficient Lifelong Memory for LLM Agents
복잡한 환경에서의 장기적인 상호작용을 지원하기 위해, LLM 에이전트는 과거 경험을 관리하는 기억 시스템이 필요합니다. 기존 방법들은 종종 전체 상호작용 기록을 수동으로 확장하여 사용하는데, 이는 상당한 중복을 초래합니다. 또는, 노이즈를 제거하기 위해 반복적인 추론을 사용하는데, 이는 높은 토큰 비용을 발생시킵니다. 이러한 문제를 해결하기 위해, 우리는 의미 손실이 없는 압축을 기반으로 하는 효율적인 기억 프레임워크인 SimpleMem을 소개합니다. 우리는 정보 밀도와 토큰 활용도를 극대화하도록 설계된 세 단계 파이프라인을 제안합니다: (1) 의미 기반 구조화 압축: 비정형 상호작용을 압축하여, 간결하고 다중 관점 인덱스 메모리 단위로 만듭니다; (2) 온라인 의미 합성: 세션 내에서 관련 컨텍스트를 즉시 통합하여 통합된 추상 표현을 생성하고 중복을 제거합니다; (3) 의도 기반 검색 계획: 검색 의도를 추론하여 검색 범위를 동적으로 결정하고, 효율적으로 정확한 컨텍스트를 구성합니다. 벤치마크 데이터 세트에 대한 실험 결과, 제안된 방법은 정확도, 검색 효율성 및 추론 비용 측면에서 기존 방법보다 우수한 성능을 보입니다. 특히, LoCoMo 데이터 세트에서 평균 F1 점수가 26.4% 향상되었으며, 추론 시간의 토큰 소비량을 최대 30배까지 줄였습니다. 이는 성능과 효율성 간의 우수한 균형을 보여줍니다. 코드: https://github.com/aiming-lab/SimpleMem
To support long-term interaction in complex environments, LLM agents require memory systems that manage historical experiences. Existing approaches either retain full interaction histories via passive context extension, leading to substantial redundancy, or rely on iterative reasoning to filter noise, incurring high token costs. To address this challenge, we introduce SimpleMem, an efficient memory framework based on semantic lossless compression. We propose a three-stage pipeline designed to maximize information density and token utilization: (1) Semantic Structured Compression, which distills unstructured interactions into compact, multi-view indexed memory units; (2) Online Semantic Synthesis, an intra-session process that instantly integrates related context into unified abstract representations to eliminate redundancy; and (3) Intent-Aware Retrieval Planning, which infers search intent to dynamically determine retrieval scope and construct precise context efficiently. Experiments on benchmark datasets show that our method consistently outperforms baseline approaches in accuracy, retrieval efficiency, and inference cost, achieving an average F1 improvement of 26.4% in LoCoMo while reducing inference-time token consumption by up to 30-fold, demonstrating a superior balance between performance and efficiency. Code is available at https://github.com/aiming-lab/SimpleMem.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.