2602.13234v1 Jan 29, 2026 cs.AI

인물에 충실하고 안전하게: 안전한 역할 수행 에이전트를 위한 이중 사이클 적대적 자기 진화

Stay in Character, Stay Safe: Dual-Cycle Adversarial Self-Evolution for Safety Role-Playing Agents

Weikang Li
Weikang Li
Citations: 17
h-index: 3
Deguo Xia
Deguo Xia
Nankai University
Citations: 159
h-index: 7
Mingyang Liao
Mingyang Liao
Citations: 3
h-index: 1
Yichen Wan
Yichen Wan
Citations: 93
h-index: 1
Shuchen Wu
Shuchen Wu
Citations: 1
h-index: 1
Chenxi Miao
Chenxi Miao
Citations: 1
h-index: 1
Xin Shen
Xin Shen
Citations: 2
h-index: 1
Yang Li
Yang Li
Citations: 8
h-index: 2
Jizhou Huang
Jizhou Huang
Citations: 18
h-index: 3

LLM 기반의 역할 수행 기술은 충실도 측면에서 빠르게 발전해 왔지만, 특정 인물 설정에 대한 엄격한 준수는 종종 탈옥 공격에 대한 취약성을 증가시키며, 특히 위험하거나 부정적인 인물의 경우 더욱 그렇습니다. 기존 연구의 대부분은 데이터 큐레이션 또는 정렬 중심의 규제와 같은 학습 시간 기반 솔루션을 통해 이 문제를 완화합니다. 그러나 이러한 접근 방식은 인물과 공격 전략이 진화함에 따라 유지 비용이 많이 들고, 인물의 일관성을 저하시키며, 최첨단 폐쇄형 LLM의 경우 일반적으로 실현 가능하지 않습니다. 우리는 학습이 필요 없는 이중 사이클 적대적 자기 진화 프레임워크를 제안합니다. 이 프레임워크는 두 개의 연결된 사이클로 구성됩니다. 인물 중심 공격 사이클은 점진적으로 강력한 탈옥 프롬프트를 생성하고, 역할 수행 방어 사이클은 관찰된 실패를 (i) 전역 안전 규칙, (ii) 인물 기반 제약 조건, (iii) 안전한 인물 행동 예시로 구성된 계층적 지식 베이스로 추출합니다. 추론 시, 방어 시스템은 이 계층 구조에서 구조화된 지식을 검색하고 조합하여 응답을 생성하며, 이를 통해 대상 인물에 충실하면서도 안전 제약을 만족하는 응답을 생성합니다. 여러 독점 LLM에 대한 광범위한 실험 결과, 제안하는 방법은 역할 충실도 및 탈옥 방지 측면에서 강력한 기준 모델보다 일관되게 우수한 성능을 보이며, 새로운 인물 및 공격 프롬프트에 대한 강력한 일반화 능력을 보여줍니다.

Original Abstract

LLM-based role-playing has rapidly improved in fidelity, yet stronger adherence to persona constraints commonly increases vulnerability to jailbreak attacks, especially for risky or negative personas. Most prior work mitigates this issue with training-time solutions (e.g., data curation or alignment-oriented regularization). However, these approaches are costly to maintain as personas and attack strategies evolve, can degrade in-character behavior, and are typically infeasible for frontier closed-weight LLMs. We propose a training-free Dual-Cycle Adversarial Self-Evolution framework with two coupled cycles. A Persona-Targeted Attacker Cycle synthesizes progressively stronger jailbreak prompts, while a Role-Playing Defender Cycle distills observed failures into a hierarchical knowledge base of (i) global safety rules, (ii) persona-grounded constraints, and (iii) safe in-character exemplars. At inference time, the Defender retrieves and composes structured knowledge from this hierarchy to guide generation, producing responses that remain faithful to the target persona while satisfying safety constraints. Extensive experiments across multiple proprietary LLMs show consistent gains over strong baselines on both role fidelity and jailbreak resistance, and robust generalization to unseen personas and attack prompts.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!