SimpleMem: LLM 에이전트를 위한 효율적인 장기 기억 시스템
SimpleMem: Efficient Lifelong Memory for LLM Agents
복잡한 환경에서의 장기적인 상호작용을 지원하기 위해, LLM 에이전트는 과거 경험을 관리하는 기억 시스템이 필요합니다. 기존 방법들은 종종 전체 상호작용 기록을 수동으로 확장하여 사용하는데, 이는 상당한 중복을 초래합니다. 또는, 노이즈를 제거하기 위해 반복적인 추론을 사용하는데, 이는 높은 토큰 비용을 발생시킵니다. 이러한 문제를 해결하기 위해, 우리는 의미 손실이 없는 압축을 기반으로 하는 효율적인 기억 프레임워크인 SimpleMem을 소개합니다. 우리는 정보 밀도와 토큰 활용도를 극대화하도록 설계된 세 단계 파이프라인을 제안합니다: (1) 의미 기반 구조화 압축: 비정형 상호작용을 압축하여, 간결하고 다중 관점 인덱스 메모리 단위로 만듭니다; (2) 온라인 의미 합성: 세션 내에서 관련 컨텍스트를 즉시 통합하여 통합된 추상 표현을 생성하고 중복을 제거합니다; (3) 의도 기반 검색 계획: 검색 의도를 추론하여 검색 범위를 동적으로 결정하고, 효율적으로 정확한 컨텍스트를 구성합니다. 벤치마크 데이터 세트에 대한 실험 결과, 제안된 방법은 정확도, 검색 효율성 및 추론 비용 측면에서 기존 방법보다 우수한 성능을 보입니다. 특히, LoCoMo 데이터 세트에서 평균 F1 점수가 26.4% 향상되었으며, 추론 시간의 토큰 소비량을 최대 30배까지 줄였습니다. 이는 성능과 효율성 간의 우수한 균형을 보여줍니다. 코드: https://github.com/aiming-lab/SimpleMem
To support long-term interaction in complex environments, LLM agents require memory systems that manage historical experiences. Existing approaches either retain full interaction histories via passive context extension, leading to substantial redundancy, or rely on iterative reasoning to filter noise, incurring high token costs. To address this challenge, we introduce SimpleMem, an efficient memory framework based on semantic lossless compression. We propose a three-stage pipeline designed to maximize information density and token utilization: (1) Semantic Structured Compression, which distills unstructured interactions into compact, multi-view indexed memory units; (2) Online Semantic Synthesis, an intra-session process that instantly integrates related context into unified abstract representations to eliminate redundancy; and (3) Intent-Aware Retrieval Planning, which infers search intent to dynamically determine retrieval scope and construct precise context efficiently. Experiments on benchmark datasets show that our method consistently outperforms baseline approaches in accuracy, retrieval efficiency, and inference cost, achieving an average F1 improvement of 26.4% in LoCoMo while reducing inference-time token consumption by up to 30-fold, demonstrating a superior balance between performance and efficiency. Code is available at https://github.com/aiming-lab/SimpleMem.
AI Analysis
Korean Summary
Key Innovations
- 의미론적 구조화 압축 (Semantic Structured Compression): LLM을 자체적인 필터로 활용해 무의미한 잡담을 걸러내고, 원시 대화를 대명사 해석 및 절대 시간(ISO-8601) 변환이 완료된 문맥 독립적인 팩트 단위(Memory Units)로 압축합니다.
- 온라인 의미 합성 (Online Semantic Synthesis): 새로운 정보가 메모리에 기록되는 단계에서 실시간(On-the-fly)으로 관련된 단편적 지식들을 병합하여, 파편화와 중복이 없는 고밀도의 일관된 추상적 메모리로 통합합니다.
- 의도 인지 검색 계획 (Intent-Aware Retrieval Planning): 사용자의 쿼리 복잡도와 의도를 사전에 분석해 검색 깊이(Scope)를 동적으로 조절합니다. 이후 의미론적(Dense), 어휘적(Sparse), 기호적(Metadata) 다중 뷰 인덱스를 병렬로 검색해 가장 필요한 정보만 정확하게 추출합니다.
Learning & Inference Impact
이 시스템은 모델의 추가적인 가중치 학습(Training/Fine-tuning)을 요구하지 않으며 플러그인 형태로 동작합니다. 반면 추론(Inference) 단계에서는 비용과 성능 면에서 획기적인 영향을 미칩니다. 기존 방식들은 길어지는 대화 기록을 그대로 컨텍스트 창(Context Window)에 넣어 막대한 토큰 처리 비용, 지연 시간(Latency) 증가, 그리고 핵심 정보를 망각하는 현상을 유발했습니다. SimpleMem은 사전 압축과 동적 검색을 통해 불필요한 노이즈를 제거하고 꼭 필요한 컨텍스트만 모델에 전달합니다. 결과적으로 추론에 사용되는 토큰 양을 최대 30배 감소시켜 처리 속도와 API 비용을 최적화하는 동시에, 복잡한 시간적 추론 및 다중 홉(Multi-hop) 추론 작업에서 답변의 정확도(F1 스코어)를 대폭 끌어올립니다. 또한 Qwen 1.5B와 같은 소규모(Small) 파라미터 모델에서도 큰 성능 저하 없이 강력한 장기 기억 능력을 발휘할 수 있게 합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.