SimpleMem: LLM 에이전트를 위한 효율적인 평생 기억
SimpleMem: Efficient Lifelong Memory for LLM Agents
복잡한 환경에서 신뢰할 수 있는 장기 상호작용을 지원하기 위해, LLM 에이전트는 과거의 경험을 효율적으로 관리하는 기억 시스템을 필요로 합니다. 기존 접근 방식들은 수동적 문맥 확장을 통해 전체 상호작용 기록을 유지하여 상당한 중복을 초래하거나, 잡음을 제거하기 위해 반복적인 추론에 의존하여 높은 토큰 비용을 발생시킵니다. 이러한 문제를 해결하기 위해, 우리는 의미론적 무손실 압축에 기반한 효율적인 기억 프레임워크인 SimpleMem을 소개합니다. 우리는 정보 밀도와 토큰 활용도를 극대화하기 위해 설계된 3단계 파이프라인을 제안합니다. (1) 비정형 상호작용을 간결하고 다중 관점으로 색인된 기억 유닛으로 정제하기 위해 엔트로피 인식 필터링을 적용하는 '의미론적 구조화 압축', (2) 중복을 줄이기 위해 관련 유닛들을 상위 수준의 추상적 표현으로 통합하는 비동기 프로세스인 '재귀적 기억 통합', 그리고 (3) 정확한 문맥을 효율적으로 구성하기 위해 쿼리 복잡도에 따라 검색 범위를 동적으로 조정하는 '적응형 쿼리 인식 검색'입니다. 벤치마크 데이터셋에 대한 실험 결과, 우리의 방법은 정확도, 검색 효율성, 추론 비용 면에서 베이스라인 접근 방식들을 일관되게 능가했으며, 평균 F1 점수를 26.4% 향상시키는 동시에 추론 시 토큰 소비를 최대 30배까지 줄여 성능과 효율성 간의 탁월한 균형을 입증했습니다. 코드는 https://github.com/aiming-lab/SimpleMem 에서 확인할 수 있습니다.
To support reliable long-term interaction in complex environments, LLM agents require memory systems that efficiently manage historical experiences. Existing approaches either retain full interaction histories via passive context extension, leading to substantial redundancy, or rely on iterative reasoning to filter noise, incurring high token costs. To address this challenge, we introduce SimpleMem, an efficient memory framework based on semantic lossless compression. We propose a three-stage pipeline designed to maximize information density and token utilization: (1) \textit{Semantic Structured Compression}, which applies entropy-aware filtering to distill unstructured interactions into compact, multi-view indexed memory units; (2) \textit{Recursive Memory Consolidation}, an asynchronous process that integrates related units into higher-level abstract representations to reduce redundancy; and (3) \textit{Adaptive Query-Aware Retrieval}, which dynamically adjusts retrieval scope based on query complexity to construct precise context efficiently. Experiments on benchmark datasets show that our method consistently outperforms baseline approaches in accuracy, retrieval efficiency, and inference cost, achieving an average F1 improvement of 26.4% while reducing inference-time token consumption by up to 30-fold, demonstrating a superior balance between performance and efficiency. Code is available at https://github.com/aiming-lab/SimpleMem.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.