2601.17887v1 Jan 25, 2026 cs.AI

개인화가 위험을 정당화할 때: 개인화된 대화형 에이전트의 안전 취약점 규명

When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents

Jiahe Guo
Jiahe Guo
Citations: 171
h-index: 8
Xiangran Guo
Xiangran Guo
Citations: 6
h-index: 1
Yulin Hu
Yulin Hu
Citations: 257
h-index: 10
Zimo Long
Zimo Long
Citations: 11
h-index: 2
Xingyu Sui
Xingyu Sui
Citations: 160
h-index: 7
Weixiang Zhao
Weixiang Zhao
Citations: 614
h-index: 14
Yanyan Zhao
Yanyan Zhao
Citations: 1,876
h-index: 24
Bing Qin
Bing Qin
Citations: 493
h-index: 11
X. Zhi
X. Zhi
Citations: 6
h-index: 1
Yongbo Huang
Yongbo Huang
Citations: 53
h-index: 5
Hao He
Hao He
Citations: 467
h-index: 4

장기 기억은 거대 언어 모델(LLM) 에이전트가 개인화되고 지속적인 상호작용을 지원할 수 있게 합니다. 그러나 개인화된 에이전트에 관한 대부분의 연구는 유용성과 사용자 경험을 우선시하며, 기억을 중립적인 요소로 취급하여 안전상의 함의를 크게 간과하고 있습니다. 본 논문에서는 개인화된 에이전트에서 그동안 충분히 탐구되지 않았던 안전 실패 현상인 '의도 정당화(intent legitimation)'를 밝힙니다. 이는 악의 없는 개인적 기억이 의도 추론에 편향을 일으켜 모델이 본질적으로 유해한 질문을 정당화하게 만드는 현상입니다. 이 현상을 연구하기 위해, 우리는 개인화된 상호작용 내에서 의도 정당화를 식별하고 정량화하도록 설계된 벤치마크인 PS-Bench를 소개합니다. 다양한 기억 증강 에이전트 프레임워크와 기반 LLM에 걸쳐 실험한 결과, 개인화는 상태를 저장하지 않는(stateless) 베이스라인과 비교하여 공격 성공률을 15.8%에서 243.7%까지 증가시켰습니다. 또한 우리는 내부 표현 공간에서 의도 정당화에 대한 메커니즘적 증거를 제공하고, 안전성 저하를 효과적으로 줄이는 경량화된 탐지-반성 방법을 제안합니다. 전반적으로, 본 연구는 악의 없는 실제 개인화 과정에서 자연스럽게 발생하는 안전 실패 모드로서의 의도 정당화에 대한 최초의 체계적인 탐구 및 평가를 제공하며, 장기적인 개인적 맥락 하에서 안전성을 평가하는 것의 중요성을 강조합니다. 경고: 이 논문은 유해한 내용을 포함하고 있을 수 있습니다.

Original Abstract

Long-term memory enables large language model (LLM) agents to support personalized and sustained interactions. However, most work on personalized agents prioritizes utility and user experience, treating memory as a neutral component and largely overlooking its safety implications. In this paper, we reveal intent legitimation, a previously underexplored safety failure in personalized agents, where benign personal memories bias intent inference and cause models to legitimize inherently harmful queries. To study this phenomenon, we introduce PS-Bench, a benchmark designed to identify and quantify intent legitimation in personalized interactions. Across multiple memory-augmented agent frameworks and base LLMs, personalization increases attack success rates by 15.8%-243.7% relative to stateless baselines. We further provide mechanistic evidence for intent legitimation from internal representations space, and propose a lightweight detection-reflection method that effectively reduces safety degradation. Overall, our work provides the first systematic exploration and evaluation of intent legitimation as a safety failure mode that naturally arises from benign, real-world personalization, highlighting the importance of assessing safety under long-term personal context. WARNING: This paper may contain harmful content.

5 Citations
0 Influential
12 Altmetric
65.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!