2602.10715v1 Feb 11, 2026 cs.CL

LoCoMo-Plus: LLM 에이전트를 위한 사실 기반 인지 기억 평가 프레임워크

Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents

Jun Liu
Jun Liu
Citations: 154
h-index: 3
Yifei Li
Yifei Li
Citations: 56
h-index: 5
Weidong Guo
Weidong Guo
Citations: 22
h-index: 2
Lingling Zhang
Lingling Zhang
Citations: 22
h-index: 3
Rongman Xu
Rongman Xu
Citations: 79
h-index: 3
Muye Huang
Muye Huang
Citations: 96
h-index: 5
Hui Liu
Hui Liu
Citations: 30
h-index: 2
Lijiao Xu
Lijiao Xu
Citations: 3
h-index: 1
Yu Xu
Yu Xu
Citations: 12
h-index: 2

장기 대화 기억은 LLM 기반 대화 시스템의 핵심 기능이지만, 기존의 벤치마크 및 평가 프로토콜은 주로 표면적인 사실 회수를 중심으로 합니다. 실제 상호작용에서 적절한 응답은 사용자 상태, 목표 또는 가치와 같은 명시적으로 쿼리되지 않는 암묵적인 제약 조건에 따라 달라지는 경우가 많습니다. 이러한 상황을 평가하기 위해, 우리는 모델이 장기적인 대화 맥락에서 잠재적인 제약 조건을 유지하고 적용해야 하는 '단서-트리거 의미 분리' 환경에서 인지 기억을 평가하는 벤치마크인 **LoCoMo-Plus**를 소개합니다. 또한, 기존의 문자열 매칭 메트릭과 명시적인 작업 유형 프롬프트가 이러한 시나리오와 일치하지 않으며, 제약 조건 일관성을 기반으로 하는 통합 평가 프레임워크를 제안합니다. 다양한 기반 모델, 검색 기반 방법 및 메모리 시스템에 대한 실험 결과, 인지 기억은 여전히 어려운 과제이며, 기존 벤치마크로는 파악할 수 없는 실패 사례가 있음을 보여줍니다. 저희의 코드 및 평가 프레임워크는 다음 주소에서 공개적으로 이용할 수 있습니다: https://github.com/xjtuleeyf/Locomo-Plus.

Original Abstract

Long-term conversational memory is a core capability for LLM-based dialogue systems, yet existing benchmarks and evaluation protocols primarily focus on surface-level factual recall. In realistic interactions, appropriate responses often depend on implicit constraints such as user state, goals, or values that are not explicitly queried later. To evaluate this setting, we introduce \textbf{LoCoMo-Plus}, a benchmark for assessing cognitive memory under cue--trigger semantic disconnect, where models must retain and apply latent constraints across long conversational contexts. We further show that conventional string-matching metrics and explicit task-type prompting are misaligned with such scenarios, and propose a unified evaluation framework based on constraint consistency. Experiments across diverse backbone models, retrieval-based methods, and memory systems demonstrate that cognitive memory remains challenging and reveals failures not captured by existing benchmarks. Our code and evaluation framework are publicly available at: https://github.com/xjtuleeyf/Locomo-Plus.

4 Citations
1 Influential
29.431471805599 Altmetric
153.2 Score
Original PDF
3

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!