2603.03781v1 Mar 04, 2026 cs.AI

LifeBench: 장기 다중 소스 메모리를 위한 벤치마크

LifeBench: A Benchmark for Long-Horizon Multi-Source Memory

Guowei Li
Guowei Li
Citations: 8,932
h-index: 6
Yang Chen
Yang Chen
Citations: 19
h-index: 2
Weixin Wang
Weixin Wang
Citations: 0
h-index: 0
Yu Zhao
Yu Zhao
Citations: 2
h-index: 1
Ziyang Ren
Ziyang Ren
Citations: 64
h-index: 4
Jiaxuan Chen
Jiaxuan Chen
Citations: 30
h-index: 3
Shuai Huang
Shuai Huang
Citations: 1
h-index: 1
Mengshi Wang
Mengshi Wang
Citations: 0
h-index: 0
Zeren Jiang
Zeren Jiang
Citations: 55
h-index: 3
Keda Lu
Keda Lu
Citations: 27
h-index: 3
Yihong Li
Yihong Li
Citations: 0
h-index: 0
Liwei Liu
Liwei Liu
Citations: 3
h-index: 1
Cam-Tu Nguyen
Cam-Tu Nguyen
Citations: 112
h-index: 4
Zi-Jian Cheng
Zi-Jian Cheng
Citations: 6
h-index: 2
Ruiyang Xu
Ruiyang Xu
Citations: 142
h-index: 5
Yichen Xie
Yichen Xie
Citations: 14
h-index: 1
Renchuan Zhu
Renchuan Zhu
Citations: 17
h-index: 2
Xiaoliang Wang
Xiaoliang Wang
Citations: 7
h-index: 2

장기 기억은 지식을 축적하고, 사용자 경험에 대해 추론하며, 시간의 흐름에 따라 적응할 수 있는 개인화된 에이전트에게 필수적입니다. 그러나 기존의 메모리 벤치마크는 주로 선언적 기억, 특히 의미론적 및 사건적 유형을 대상으로 하며, 여기서 모든 정보는 대화에서 명시적으로 제시됩니다. 반면, 실제 세계의 행동은 습관적 및 절차적 유형을 포함하는 선언적 기억 외에도 다양한 디지털 흔적으로부터 추론되어야 하는 비선언적 기억에 의해 규제됩니다. 이러한 격차를 해소하기 위해, 우리는 밀접하게 연결된 장기 이벤트 시뮬레이션을 특징으로 하는 LifeBench를 소개합니다. LifeBench는 AI 에이전트가 단순한 회상을 넘어, 다양한 맥락과 시간적 범위를 아우르는 선언적 및 비선언적 기억 추론을 통합하도록 요구합니다. 이러한 벤치마크를 구축하는 데는 데이터 품질과 확장성이라는 두 가지 주요 과제가 있습니다. 우리는 실제 세계의 선행 지식을 활용하여 데이터 품질을 유지하며, 여기에는 익명화된 소셜 설문 조사, 지도 API 및 휴일 통합 캘린더가 포함되어 있습니다. 이를 통해 데이터셋 내에서 충실성, 다양성 및 행동적 합리성을 보장합니다. 확장성을 위해, 우리는 인지 과학에서 영감을 받아 이벤트의 부분 관계 계층 구조에 따라 구조화하여 효율적인 병렬 생성을 가능하게 하면서 전반적인 일관성을 유지합니다. 성능 결과는 최첨단 메모리 시스템조차도 55.2%의 정확도를 달성하는 데 그치며, 이는 제안된 벤치마크 내에서 장기 검색 및 다중 소스 통합의 본질적인 어려움을 강조합니다. 데이터셋 및 데이터 합성 코드는 https://github.com/1754955896/LifeBench 에서 확인할 수 있습니다.

Original Abstract

Long-term memory is fundamental for personalized agents capable of accumulating knowledge, reasoning over user experiences, and adapting across time. However, existing memory benchmarks primarily target declarative memory, specifically semantic and episodic types, where all information is explicitly presented in dialogues. In contrast, real-world actions are also governed by non-declarative memory, including habitual and procedural types, and need to be inferred from diverse digital traces. To bridge this gap, we introduce Lifebench, which features densely connected, long-horizon event simulation. It pushes AI agents beyond simple recall, requiring the integration of declarative and non-declarative memory reasoning across diverse and temporally extended contexts. Building such a benchmark presents two key challenges: ensuring data quality and scalability. We maintain data quality by employing real-world priors, including anonymized social surveys, map APIs, and holiday-integrated calendars, thus enforcing fidelity, diversity and behavioral rationality within the dataset. Towards scalability, we draw inspiration from cognitive science and structure events according to their partonomic hierarchy; enabling efficient parallel generation while maintaining global coherence. Performance results show that top-tier, state-of-the-art memory systems reach just 55.2\% accuracy, highlighting the inherent difficulty of long-horizon retrieval and multi-source integration within our proposed benchmark. The dataset and data synthesis code are available at https://github.com/1754955896/LifeBench.

0 Citations
0 Influential
34.51292546497 Altmetric
172.6 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!