에이전트 메모리를 위한 RAG의 한계 극복: 분리 및 집계를 통한 검색
Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation
에이전트 메모리 시스템은 종종 표준적인 검색 증강 생성(RAG) 파이프라인을 채택하지만, 그 기본 가정은 이 환경에서 다릅니다. RAG는 다양한 내용을 가진 대규모 데이터 코퍼스를 대상으로 하며, 검색된 내용은 다양합니다. 반면, 에이전트 메모리는 일관된 대화 흐름으로, 높은 상관관계를 가진 구간을 포함하며, 종종 중복되는 내용을 가집니다. 이러한 변화로 인해, 고정된 상위 k개 유사성 검색은 불필요한 컨텍스트를 반환하는 경향이 있으며, 사후 가지치기는 정확한 추론에 필요한 시간적으로 연결된 선행 정보를 삭제할 수 있습니다. 우리는 검색이 단순한 유사성 매칭을 넘어, 분리에서 집계로 이어지는 잠재 요소를 기반으로 작동해야 한다고 주장합니다. 즉, 메모리를 의미론적 구성 요소로 분리하고, 이를 계층 구조로 구성하며, 이 구조를 활용하여 검색을 수행해야 합니다. 우리는 xMemory를 제안합니다. xMemory는 완전한 단위의 계층 구조를 구축하고, 희소성-의미론적 목표를 통해 메모리 분할 및 병합을 유도하여 검색 가능한 동시에 충실한 고차원 노드 구조를 유지합니다. 추론 과정에서 xMemory는 상위에서 하위로 검색하며, 다중 사실 쿼리에 대해 간결하고 다양한 주제와 의미를 선택하고, 독자의 불확실성을 줄일 때만 에피소드와 원시 메시지로 확장합니다. LoCoMo 및 PerLTQA 데이터셋을 사용하여 최신 LLM 3가지에 대한 실험 결과, 답변 품질과 토큰 효율성 측면에서 일관된 성능 향상을 보였습니다.
Agent memory systems often adopt the standard Retrieval-Augmented Generation (RAG) pipeline, yet its underlying assumptions differ in this setting. RAG targets large, heterogeneous corpora where retrieved passages are diverse, whereas agent memory is a bounded, coherent dialogue stream with highly correlated spans that are often duplicates. Under this shift, fixed top-$k$ similarity retrieval tends to return redundant context, and post-hoc pruning can delete temporally linked prerequisites needed for correct reasoning. We argue retrieval should move beyond similarity matching and instead operate over latent components, following decoupling to aggregation: disentangle memories into semantic components, organise them into a hierarchy, and use this structure to drive retrieval. We propose xMemory, which builds a hierarchy of intact units and maintains a searchable yet faithful high-level node organisation via a sparsity--semantics objective that guides memory split and merge. At inference, xMemory retrieves top-down, selecting a compact, diverse set of themes and semantics for multi-fact queries, and expanding to episodes and raw messages only when it reduces the reader's uncertainty. Experiments on LoCoMo and PerLTQA across the three latest LLMs show consistent gains in answer quality and token efficiency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.