KnowMe-Bench: 평생 디지털 동반자를 위한 인물 이해 벤치마킹
KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions
기존의 장기 기억 벤치마크는 주로 다중 턴 대화나 합성된 사용자 기록을 사용하므로, 검색 성능이 인물 이해를 위한 완벽한 척도가 되지 못합니다. 이에 우리는 행동, 맥락, 내면의 생각이 안정적인 동기와 의사결정 원칙을 추론하는 데 있어 밀도 높은 증거를 제공하는 장편 자전적 서사를 기반으로 구축된 공개 벤치마크인 KnowMe-Bench를 제안합니다. KnowMe-Bench는 각 서사를 회상을 고려하고 시간 정보가 고정된 스트림으로 재구성하며, 사실적 회상, 주관적 상태 파악, 원칙 수준의 추론을 아우르는 증거 연계형 질문을 통해 모델을 평가합니다. 다양한 서사 소스에서 검색 증강 시스템은 주로 사실적 정확도를 개선하지만, 시간적 맥락에 기반한 설명이나 고차원적 추론에서는 여전히 오류가 지속되어 검색을 넘어서는 기억 메커니즘의 필요성을 강조합니다. 데이터는 https://github.com/QuantaAlpha/KnowMeBench 에서 확인할 수 있습니다.
Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in \href{KnowMeBench}{https://github.com/QuantaAlpha/KnowMeBench}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.