2604.11120v1 Apr 13, 2026 cs.AI

페르소나 논 그라타: 페르소나를 부여한 LLM의 안전성 평가는 단일 방법에 의존할 경우 불완전하다

Persona Non Grata: Single-Method Safety Evaluation Is Incomplete for Persona-Imbued LLMs

Shaunak A. Mehta
Shaunak A. Mehta
Citations: 123
h-index: 6
K. Onoue
K. Onoue
Citations: 27
h-index: 2
Wenkai Li
Wenkai Li
Citations: 5
h-index: 2
Fan Yang
Fan Yang
Citations: 14
h-index: 3

페르소나 부여는 LLM의 동작을 사용자 정의하지만, 안전성 평가는 거의 항상 프롬프트 기반의 페르소나만을 대상으로 합니다. 본 연구에서는 이러한 접근 방식이 불완전함을 보여줍니다. 프롬프팅과 활성화 조작은 *서로 다른* 아키텍처 의존적인 취약점 프로필을 드러내며, 단일 방법으로 테스트하는 것만으로는 모델의 주요 실패 모드를 놓칠 수 있습니다. 세 가지 아키텍처 패밀리의 네 가지 표준 모델에 대해 5,568개의 평가 조건을 분석한 결과, 시스템 프롬프팅 하에서의 페르소나 위험 순위는 모든 아키텍처에서 일관성을 유지합니다 ($ρ= 0.71$--$0.96$). 그러나 활성화 조작에 의한 취약성은 현저하게 다르며, 프롬프트 측의 순위로 예측할 수 없습니다. Llama-3.1-8B는 활성화 조작에 의해 현저하게 더 취약한 반면, Gemma-3-27B와 Qwen3.5는 프롬프팅에 더 취약합니다. 이러한 차이를 가장 잘 보여주는 예가 바로 *친사회적 페르소나 역설*입니다. Llama-3.1-8B에서, P12 (높은 성실성 + 높은 타인 지향성)는 프롬프팅 하에서 가장 안전한 페르소나 중 하나이지만, 활성화 조작을 통해 가장 높은 ASR(Activation-Steered Response) 값을 갖는 페르소나(ASR ~0.818)가 됩니다. 이러한 현상은 계수 제거 및 균등한 강도의 교정에도 견고하며, DeepSeek-R1-Distill-Qwen-32B에서도 재현되었습니다. Llama-3.1-8B에서 성실성이 거부 반응과 강하게 반정렬되는 특성 거부 정렬 프레임워크는 이러한 현상에 대한 부분적인 기하학적 설명을 제공합니다. 추론은 부분적인 보호 효과만 제공합니다. 두 개의 32B 추론 모델은 프롬프트 측면에서 15~18%의 ASR을 보이며, 활성화 조작은 기본 취약성 및 페르소나별 취약성 측면에서 두 모델을 명확하게 구분합니다. 휴리스틱 기반의 분석 결과, 더 안전한 모델은 더 강력한 정책 기억 및 자기 수정 행동을 유지하며, 단순히 더 긴 추론을 수행하는 것이 아닙니다.

Original Abstract

Personality imbuing customizes LLM behavior, but safety evaluations almost always study prompt-based personas alone. We show this is incomplete: prompting and activation steering expose *different*, architecture-dependent vulnerability profiles, and testing with only one method can miss a model's dominant failure mode. Across 5,568 judged conditions on four standard models from three architecture families, persona danger rankings under system prompting are preserved across all architectures ($ρ= 0.71$--$0.96$), but activation-steering vulnerability diverges sharply and cannot be predicted from prompt-side rankings: Llama-3.1-8B is substantially more AS-vulnerable, whereas Gemma-3-27B and Qwen3.5 are more vulnerable to prompting. The most striking illustration of this divergence is the *prosocial persona paradox*: on Llama-3.1-8B, P12 (high conscientiousness + high agreeableness) is among the safest personas under prompting yet becomes the highest-ASR activation-steered persona (ASR ~0.818). This is an inversion robust to coefficient ablation and matched-strength calibration, and replicated on DeepSeek-R1-Distill-Qwen-32B. A trait refusal alignment framework, in which conscientiousness is strongly anti-aligned with refusal on Llama-3.1-8B, offers a partial geometric account. Reasoning provides only partial protection: two 32B reasoning models reach 15--18% prompt-side ASR, and activation steering separates them sharply in both baseline susceptibility and persona-specific vulnerability. Heuristic trace diagnostics suggest that the safer model retains stronger policy recall and self-correction behavior, not merely longer reasoning.

2 Citations
0 Influential
3 Altmetric
17.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!