PERMA: 이벤트 기반 선호도 및 현실적인 작업 환경을 통한 개인화된 메모리 에이전트 벤치마킹
PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments
대규모 언어 모델에 장기 기억 기능을 부여하는 것은 사용자 요구사항 변화에 적응하는 에이전트를 구축하는 데 매우 중요합니다. 그러나 기존 평가 방식은 일반적으로 선호도 관련 대화와 관련 없는 대화를 섞어 평가하여, 실제로는 사용자의 선호도 변화를 이끄는 이벤트 간의 관계를 무시하면서, 마치 바늘 찾기 게임처럼 단순한 검색 작업으로 환원하는 경향이 있습니다. 이러한 방식은 실제 개인화의 근본적인 특징, 즉 선호도가 점진적으로 나타나고 노이즈가 많은 환경에서 상호 작용을 통해 축적된다는 점을 간과합니다. 이러한 간극을 해소하기 위해, 저희는 정적인 선호도 기억 능력뿐만 아니라 시간 경과에 따른 페르소나 일관성을 평가하도록 설계된 벤치마크인 PERMA를 소개합니다. 또한, (1) 텍스트 변동성과 (2) 언어적 일관성을 통합하여 실제 데이터에서 나타나는 불규칙한 사용자 입력과 개인적인 언어 스타일을 시뮬레이션합니다. PERMA는 여러 세션과 도메인을 포괄하는 시간 순서대로 정렬된 상호 작용 이벤트로 구성되어 있으며, 선호도 관련 쿼리가 시간에 따라 삽입됩니다. 저희는 모델이 상호 작용 시간 흐름에 따른 페르소나를 얼마나 잘 이해하는지 파악하기 위해 객관식 및 상호 작용 방식의 다양한 작업을 설계했습니다. 실험 결과, 관련 상호 작용을 연결함으로써 고급 메모리 시스템은 더 정확한 선호도를 추출하고 토큰 사용량을 줄일 수 있으며, 이는 원시 대화의 전통적인 의미 검색 방식보다 뛰어난 성능을 보입니다. 그러나 이러한 시스템은 여전히 시간적인 깊이와 도메인 간 간섭으로 인해 일관된 페르소나를 유지하는 데 어려움을 겪으며, 이는 에이전트의 보다 강력한 개인화된 메모리 관리가 필요하다는 점을 시사합니다. 저희의 코드와 데이터는 https://github.com/PolarisLiu1/PERMA 에서 공개적으로 이용할 수 있습니다.
Empowering large language models with long-term memory is crucial for building agents that adapt to users' evolving needs. However, prior evaluations typically interleave preference-related dialogues with irrelevant conversations, reducing the task to needle-in-a-haystack retrieval while ignoring relationships between events that drive the evolution of user preferences. Such settings overlook a fundamental characteristic of real-world personalization: preferences emerge gradually and accumulate across interactions within noisy contexts. To bridge this gap, we introduce PERMA, a benchmark designed to evaluate persona consistency over time beyond static preference recall. Additionally, we incorporate (1) text variability and (2) linguistic alignment to simulate erratic user inputs and individual idiolects in real-world data. PERMA consists of temporally ordered interaction events spanning multiple sessions and domains, with preference-related queries inserted over time. We design both multiple-choice and interactive tasks to probe the model's understanding of persona along the interaction timeline. Experiments demonstrate that by linking related interactions, advanced memory systems can extract more precise preferences and reduce token consumption, outperforming traditional semantic retrieval of raw dialogues. Nevertheless, they still struggle to maintain a coherent persona across temporal depth and cross-domain interference, highlighting the need for more robust personalized memory management in agents. Our code and data are open-sourced at https://github.com/PolarisLiu1/PERMA.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.