OP-Bench: 메모리 기반 개인화 대화형 에이전트의 과도한 개인화 현상 벤치마킹
OP-Bench: Benchmarking Over-Personalization for Memory-Augmented Personalized Conversational Agents
메모리 기반 개인화 대화형 에이전트는 장기 사용자 정보를 활용하여 개인화된 상호 작용을 가능하게 하며, 상당한 주목을 받고 있습니다. 그러나 기존의 벤치마크는 주로 에이전트가 사용자 정보를 얼마나 잘 기억하고 활용하는지에 초점을 맞추고 있으며, 이러한 개인화가 적절하게 사용되는지에 대한 고려는 부족합니다. 실제로 에이전트는 개인 정보를 과도하게 사용하여 사용자가 어색하거나, 침해감을 느끼거나, 사회적으로 부적절하다고 느낄 수 있는 응답을 생성할 수 있습니다. 우리는 이러한 문제를 "과도한 개인화(over-personalization)"라고 정의합니다. 본 연구에서는 과도한 개인화를 관련성 부족(Irrelevance), 반복(Repetition), 아첨(Sycophancy)의 세 가지 유형으로 공식화하고, 장기 대화 기록에서 구축된 1,700개의 검증된 사례로 구성된 벤치마크인 **OP-Bench**를 소개합니다. **OP-Bench**를 사용하여 여러 대규모 언어 모델과 메모리 증강 방법을 평가한 결과, 메모리를 도입할 때 과도한 개인화 현상이 광범위하게 나타나는 것을 확인했습니다. 추가 분석 결과, 에이전트는 불필요한 경우에도 사용자 정보를 검색하고 과도하게 참조하는 경향이 있는 것으로 나타났습니다. 이러한 문제를 해결하기 위해, 우리는 과도한 개인화를 완화하면서 개인화 성능을 유지하는 경량의 모델에 독립적인 메모리 필터링 메커니즘인 **Self-ReCheck**를 제안합니다. 본 연구는 메모리 기반 대화 시스템에서 보다 제어 가능하고 적절한 개인화를 향한 첫걸음입니다.
Memory-augmented conversational agents enable personalized interactions using long-term user memory and have gained substantial traction. However, existing benchmarks primarily focus on whether agents can recall and apply user information, while overlooking whether such personalization is used appropriately. In fact, agents may overuse personal information, producing responses that feel forced, intrusive, or socially inappropriate to users. We refer to this issue as \emph{over-personalization}. In this work, we formalize over-personalization into three types: Irrelevance, Repetition, and Sycophancy, and introduce \textbf{OP-Bench} a benchmark of 1,700 verified instances constructed from long-horizon dialogue histories. Using \textbf{OP-Bench}, we evaluate multiple large language models and memory-augmentation methods, and find that over-personalization is widespread when memory is introduced. Further analysis reveals that agents tend to retrieve and over-attend to user memories even when unnecessary. To address this issue, we propose \textbf{Self-ReCheck}, a lightweight, model-agnostic memory filtering mechanism that mitigates over-personalization while preserving personalization performance. Our work takes an initial step toward more controllable and appropriate personalization in memory-augmented dialogue systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.