PersistBench: LLM은 언제 장기 기억을 잊어야 하는가?
PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?
대화형 비서들은 점점 더 장기 기억을 거대 언어 모델(LLM)과 통합하고 있습니다. 예를 들어 사용자가 채식주의자라는 사실과 같은 기억의 지속성은 향후 대화에서 개인화를 강화할 수 있습니다. 그러나 이러한 지속성은 그동안 크게 간과되어 온 안전 위험을 초래할 수도 있습니다. 이에 우리는 이러한 안전 위험의 정도를 측정하기 위해 PersistBench를 소개합니다. 우리는 장기 기억에 특화된 두 가지 위험을 식별했습니다. 첫째는 LLM이 장기 기억의 문맥을 부적절하게 주입하는 '교차 도메인 유출(cross-domain leakage)'이며, 둘째는 저장된 장기 기억이 은연중에 사용자의 편향을 강화하는 '기억 유발 아부(memory-induced sycophancy)'입니다. 우리는 이 벤치마크에서 18개의 프론티어 및 오픈 소스 LLM을 평가했습니다. 연구 결과, 이러한 LLM 전반에서 놀라울 정도로 높은 실패율이 드러났는데, 교차 도메인 샘플에서는 53%, 아부 성향 샘플에서는 97%의 중앙값 실패율을 보였습니다. 이를 해결하기 위해, 우리의 벤치마크는 프론티어 대화형 시스템에서 더 견고하고 안전한 장기 기억 사용 기술의 개발을 장려합니다.
Conversational assistants are increasingly integrating long-term memory with large language models (LLMs). This persistence of memories, e.g., the user is vegetarian, can enhance personalization in future conversations. However, the same persistence can also introduce safety risks that have been largely overlooked. Hence, we introduce PersistBench to measure the extent of these safety risks. We identify two long-term memory-specific risks: cross-domain leakage, where LLMs inappropriately inject context from the long-term memories; and memory-induced sycophancy, where stored long-term memories insidiously reinforce user biases. We evaluate 18 frontier and open-source LLMs on our benchmark. Our results reveal a surprisingly high failure rate across these LLMs - a median failure rate of 53% on cross-domain samples and 97% on sycophancy samples. To address this, our benchmark encourages the development of more robust and safer long-term memory usage in frontier conversational systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.