GRAVITY: 아키텍처에 독립적인 구조화된 앵커링을 통한 장기 대화형 메모리
GRAVITY: Architecture-Agnostic Structured Anchoring for Long-Horizon Conversational Memory
장기적인 대화형 에이전트는 점점 더 정교한 검색 메커니즘을 갖춘 메모리 시스템에 의존합니다. 그러나 검색된 정보 조각은 일반적으로 언어 모델에 비정형 텍스트로 제공되어 복잡한 추론에 필수적인 관계, 시간 및 주제 구조가 부족합니다. 이러한 추론 격차를 해소하기 위해, 본 논문에서는 생성 시점에 관계적 앵커링을 통해 토폴로지 기반 메모리를 주입하는 플러그 앤 플레이 구조화된 메모리 모듈인 GRAVITY를 소개합니다. GRAVITY는 원시 대화 텍스트에서 세 가지 상호 보완적인 지식 표현을 추출합니다. 여기에는 관계 그래프에 기반한 개체 프로필, 인과 관계를 나타내는 시간 이벤트 튜플, 그리고 세션 간 주제 요약이 포함됩니다. 생성 시점에, GRAVITY는 이러한 표현을 호스트 시스템의 프롬프트에 구조화된 앵커링 컨텍스트로 주입합니다. 이러한 접근 방식은 호스트 모델의 아키텍처를 변경하지 않고도 분산된 증거를 일관되고, 질문과 관련된 컨텍스트로 효과적으로 통합합니다. LongMemEval 및 LoCoMo 벤치마크에서 다섯 가지 다양한 메모리 시스템에 대한 광범위한 평가를 통해 본 접근 방식의 효과성을 입증했습니다. 평균적으로 GRAVITY는 LLM 평가 정확도를 7.5~10.1% 향상시켰습니다. 성능 향상은 기준 성능과 반비례 관계를 보입니다. 성능이 가장 낮은 모델은 12.2% 향상된 반면, 성능이 가장 높은 모델도 3.8~5.7% 향상되었습니다. 이러한 결과는 구조화된 컨텍스트 앵커링이 장기 대화형 메모리를 위한 광범위하게 효과적인 아키텍처에 독립적인 증강 패러다임임을 보여줍니다.
Long-horizon conversational agents rely on memory systems with increasingly sophisticated retrieval mechanisms. However, retrieved fragments are typically fed to the language model as unstructured text, lacking the relational, temporal, and thematic structures essential for complex reasoning. To bridge this reasoning gap, we introduce GRAVITY (\textbf{G}eneration-time \textbf{R}elational \textbf{A}nchoring \textbf{V}ia \textbf{I}njected \textbf{T}opological Memor\textbf{Y}), a plug-and-play structured memory module. GRAVITY extracts three complementary knowledge representations from raw conversational utterances: entity profiles grounded in relational graphs, temporal event tuples linked into causal traces, and cross-session topic summaries. At generation time, it injects these representations into the host system's prompt as structured anchoring contexts. This approach effectively synthesizes scattered evidence into a coherent, query-relevant context without requiring any architectural modifications to the host model. Extensive evaluations across five diverse memory systems on the LongMemEval and LoCoMo benchmarks demonstrate the efficacy of our approach. On average, GRAVITY improves LLM-judge accuracy by 7.5--10.1%. Gains are inversely correlated with baseline strength: the weakest host improves by 12.2% while the strongest still gains 3.8--5.7%. These findings establish structured context anchoring as a broadly effective, architecture-agnostic augmentation paradigm for long-horizon conversational memory.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.