LifeBench: 장기 다중 소스 메모리를 위한 벤치마크
LifeBench: A Benchmark for Long-Horizon Multi-Source Memory
장기 기억은 지식을 축적하고, 사용자 경험에 대해 추론하며, 시간의 흐름에 따라 적응할 수 있는 개인화된 에이전트에게 필수적입니다. 그러나 기존의 메모리 벤치마크는 주로 선언적 기억, 특히 의미론적 및 사건적 유형을 대상으로 하며, 여기서 모든 정보는 대화에서 명시적으로 제시됩니다. 반면, 실제 세계의 행동은 습관적 및 절차적 유형을 포함하는 선언적 기억 외에도 다양한 디지털 흔적으로부터 추론되어야 하는 비선언적 기억에 의해 규제됩니다. 이러한 격차를 해소하기 위해, 우리는 밀접하게 연결된 장기 이벤트 시뮬레이션을 특징으로 하는 LifeBench를 소개합니다. LifeBench는 AI 에이전트가 단순한 회상을 넘어, 다양한 맥락과 시간적 범위를 아우르는 선언적 및 비선언적 기억 추론을 통합하도록 요구합니다. 이러한 벤치마크를 구축하는 데는 데이터 품질과 확장성이라는 두 가지 주요 과제가 있습니다. 우리는 실제 세계의 선행 지식을 활용하여 데이터 품질을 유지하며, 여기에는 익명화된 소셜 설문 조사, 지도 API 및 휴일 통합 캘린더가 포함되어 있습니다. 이를 통해 데이터셋 내에서 충실성, 다양성 및 행동적 합리성을 보장합니다. 확장성을 위해, 우리는 인지 과학에서 영감을 받아 이벤트의 부분 관계 계층 구조에 따라 구조화하여 효율적인 병렬 생성을 가능하게 하면서 전반적인 일관성을 유지합니다. 성능 결과는 최첨단 메모리 시스템조차도 55.2%의 정확도를 달성하는 데 그치며, 이는 제안된 벤치마크 내에서 장기 검색 및 다중 소스 통합의 본질적인 어려움을 강조합니다. 데이터셋 및 데이터 합성 코드는 https://github.com/1754955896/LifeBench 에서 확인할 수 있습니다.
Long-term memory is fundamental for personalized agents capable of accumulating knowledge, reasoning over user experiences, and adapting across time. However, existing memory benchmarks primarily target declarative memory, specifically semantic and episodic types, where all information is explicitly presented in dialogues. In contrast, real-world actions are also governed by non-declarative memory, including habitual and procedural types, and need to be inferred from diverse digital traces. To bridge this gap, we introduce Lifebench, which features densely connected, long-horizon event simulation. It pushes AI agents beyond simple recall, requiring the integration of declarative and non-declarative memory reasoning across diverse and temporally extended contexts. Building such a benchmark presents two key challenges: ensuring data quality and scalability. We maintain data quality by employing real-world priors, including anonymized social surveys, map APIs, and holiday-integrated calendars, thus enforcing fidelity, diversity and behavioral rationality within the dataset. Towards scalability, we draw inspiration from cognitive science and structure events according to their partonomic hierarchy; enabling efficient parallel generation while maintaining global coherence. Performance results show that top-tier, state-of-the-art memory systems reach just 55.2\% accuracy, highlighting the inherent difficulty of long-horizon retrieval and multi-source integration within our proposed benchmark. The dataset and data synthesis code are available at https://github.com/1754955896/LifeBench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.