2601.17887v1 Jan 25, 2026 cs.AI

개인화가 위험을 정당화할 때: 개인화된 대화형 에이전트의 안전 취약점 규명

When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents

Jiahe Guo
Jiahe Guo
Citations: 104
h-index: 7
Xiangran Guo
Xiangran Guo
Citations: 0
h-index: 0
Yulin Hu
Yulin Hu
Citations: 166
h-index: 9
Zimo Long
Zimo Long
Citations: 0
h-index: 0
Xingyu Sui
Xingyu Sui
Citations: 94
h-index: 6
Weixiang Zhao
Weixiang Zhao
Citations: 496
h-index: 13
Yanyan Zhao
Yanyan Zhao
Citations: 1,676
h-index: 22
Bing Qin
Bing Qin
Citations: 390
h-index: 11
X. Zhi
X. Zhi
Citations: 1
h-index: 1
Yongbo Huang
Yongbo Huang
Citations: 26
h-index: 3
Hao He
Hao He
Citations: 425
h-index: 3

장기 기억은 거대 언어 모델(LLM) 에이전트가 개인화되고 지속적인 상호작용을 지원할 수 있게 합니다. 그러나 개인화된 에이전트에 관한 대부분의 연구는 유용성과 사용자 경험을 우선시하며, 기억을 중립적인 요소로 취급하여 안전상의 함의를 크게 간과하고 있습니다. 본 논문에서는 개인화된 에이전트에서 그동안 충분히 탐구되지 않았던 안전 실패 현상인 '의도 정당화(intent legitimation)'를 밝힙니다. 이는 악의 없는 개인적 기억이 의도 추론에 편향을 일으켜 모델이 본질적으로 유해한 질문을 정당화하게 만드는 현상입니다. 이 현상을 연구하기 위해, 우리는 개인화된 상호작용 내에서 의도 정당화를 식별하고 정량화하도록 설계된 벤치마크인 PS-Bench를 소개합니다. 다양한 기억 증강 에이전트 프레임워크와 기반 LLM에 걸쳐 실험한 결과, 개인화는 상태를 저장하지 않는(stateless) 베이스라인과 비교하여 공격 성공률을 15.8%에서 243.7%까지 증가시켰습니다. 또한 우리는 내부 표현 공간에서 의도 정당화에 대한 메커니즘적 증거를 제공하고, 안전성 저하를 효과적으로 줄이는 경량화된 탐지-반성 방법을 제안합니다. 전반적으로, 본 연구는 악의 없는 실제 개인화 과정에서 자연스럽게 발생하는 안전 실패 모드로서의 의도 정당화에 대한 최초의 체계적인 탐구 및 평가를 제공하며, 장기적인 개인적 맥락 하에서 안전성을 평가하는 것의 중요성을 강조합니다. 경고: 이 논문은 유해한 내용을 포함하고 있을 수 있습니다.

Original Abstract

Long-term memory enables large language model (LLM) agents to support personalized and sustained interactions. However, most work on personalized agents prioritizes utility and user experience, treating memory as a neutral component and largely overlooking its safety implications. In this paper, we reveal intent legitimation, a previously underexplored safety failure in personalized agents, where benign personal memories bias intent inference and cause models to legitimize inherently harmful queries. To study this phenomenon, we introduce PS-Bench, a benchmark designed to identify and quantify intent legitimation in personalized interactions. Across multiple memory-augmented agent frameworks and base LLMs, personalization increases attack success rates by 15.8%-243.7% relative to stateless baselines. We further provide mechanistic evidence for intent legitimation from internal representations space, and propose a lightweight detection-reflection method that effectively reduces safety degradation. Overall, our work provides the first systematic exploration and evaluation of intent legitimation as a safety failure mode that naturally arises from benign, real-world personalization, highlighting the importance of assessing safety under long-term personal context. WARNING: This paper may contain harmful content.

0 Citations
0 Influential
11 Altmetric
55.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!