LoCoMo-Plus: LLM 에이전트를 위한 사실 기반 인지 기억 평가 프레임워크
Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents
장기 대화 기억은 LLM 기반 대화 시스템의 핵심 기능이지만, 기존의 벤치마크 및 평가 프로토콜은 주로 표면적인 사실 회수를 중심으로 합니다. 실제 상호작용에서 적절한 응답은 사용자 상태, 목표 또는 가치와 같은 명시적으로 쿼리되지 않는 암묵적인 제약 조건에 따라 달라지는 경우가 많습니다. 이러한 상황을 평가하기 위해, 우리는 모델이 장기적인 대화 맥락에서 잠재적인 제약 조건을 유지하고 적용해야 하는 '단서-트리거 의미 분리' 환경에서 인지 기억을 평가하는 벤치마크인 **LoCoMo-Plus**를 소개합니다. 또한, 기존의 문자열 매칭 메트릭과 명시적인 작업 유형 프롬프트가 이러한 시나리오와 일치하지 않으며, 제약 조건 일관성을 기반으로 하는 통합 평가 프레임워크를 제안합니다. 다양한 기반 모델, 검색 기반 방법 및 메모리 시스템에 대한 실험 결과, 인지 기억은 여전히 어려운 과제이며, 기존 벤치마크로는 파악할 수 없는 실패 사례가 있음을 보여줍니다. 저희의 코드 및 평가 프레임워크는 다음 주소에서 공개적으로 이용할 수 있습니다: https://github.com/xjtuleeyf/Locomo-Plus.
Long-term conversational memory is a core capability for LLM-based dialogue systems, yet existing benchmarks and evaluation protocols primarily focus on surface-level factual recall. In realistic interactions, appropriate responses often depend on implicit constraints such as user state, goals, or values that are not explicitly queried later. To evaluate this setting, we introduce \textbf{LoCoMo-Plus}, a benchmark for assessing cognitive memory under cue--trigger semantic disconnect, where models must retain and apply latent constraints across long conversational contexts. We further show that conventional string-matching metrics and explicit task-type prompting are misaligned with such scenarios, and propose a unified evaluation framework based on constraint consistency. Experiments across diverse backbone models, retrieval-based methods, and memory systems demonstrate that cognitive memory remains challenging and reveals failures not captured by existing benchmarks. Our code and evaluation framework are publicly available at: https://github.com/xjtuleeyf/Locomo-Plus.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.