페르소나 논 그라타: 페르소나를 부여한 LLM의 안전성 평가는 단일 방법에 의존할 경우 불완전하다
Persona Non Grata: Single-Method Safety Evaluation Is Incomplete for Persona-Imbued LLMs
페르소나 부여는 LLM의 동작을 사용자 정의하지만, 안전성 평가는 거의 항상 프롬프트 기반의 페르소나만을 대상으로 합니다. 본 연구에서는 이러한 접근 방식이 불완전함을 보여줍니다. 프롬프팅과 활성화 조작은 *서로 다른* 아키텍처 의존적인 취약점 프로필을 드러내며, 단일 방법으로 테스트하는 것만으로는 모델의 주요 실패 모드를 놓칠 수 있습니다. 세 가지 아키텍처 패밀리의 네 가지 표준 모델에 대해 5,568개의 평가 조건을 분석한 결과, 시스템 프롬프팅 하에서의 페르소나 위험 순위는 모든 아키텍처에서 일관성을 유지합니다 ($ρ= 0.71$--$0.96$). 그러나 활성화 조작에 의한 취약성은 현저하게 다르며, 프롬프트 측의 순위로 예측할 수 없습니다. Llama-3.1-8B는 활성화 조작에 의해 현저하게 더 취약한 반면, Gemma-3-27B와 Qwen3.5는 프롬프팅에 더 취약합니다. 이러한 차이를 가장 잘 보여주는 예가 바로 *친사회적 페르소나 역설*입니다. Llama-3.1-8B에서, P12 (높은 성실성 + 높은 타인 지향성)는 프롬프팅 하에서 가장 안전한 페르소나 중 하나이지만, 활성화 조작을 통해 가장 높은 ASR(Activation-Steered Response) 값을 갖는 페르소나(ASR ~0.818)가 됩니다. 이러한 현상은 계수 제거 및 균등한 강도의 교정에도 견고하며, DeepSeek-R1-Distill-Qwen-32B에서도 재현되었습니다. Llama-3.1-8B에서 성실성이 거부 반응과 강하게 반정렬되는 특성 거부 정렬 프레임워크는 이러한 현상에 대한 부분적인 기하학적 설명을 제공합니다. 추론은 부분적인 보호 효과만 제공합니다. 두 개의 32B 추론 모델은 프롬프트 측면에서 15~18%의 ASR을 보이며, 활성화 조작은 기본 취약성 및 페르소나별 취약성 측면에서 두 모델을 명확하게 구분합니다. 휴리스틱 기반의 분석 결과, 더 안전한 모델은 더 강력한 정책 기억 및 자기 수정 행동을 유지하며, 단순히 더 긴 추론을 수행하는 것이 아닙니다.
Personality imbuing customizes LLM behavior, but safety evaluations almost always study prompt-based personas alone. We show this is incomplete: prompting and activation steering expose *different*, architecture-dependent vulnerability profiles, and testing with only one method can miss a model's dominant failure mode. Across 5,568 judged conditions on four standard models from three architecture families, persona danger rankings under system prompting are preserved across all architectures ($ρ= 0.71$--$0.96$), but activation-steering vulnerability diverges sharply and cannot be predicted from prompt-side rankings: Llama-3.1-8B is substantially more AS-vulnerable, whereas Gemma-3-27B and Qwen3.5 are more vulnerable to prompting. The most striking illustration of this divergence is the *prosocial persona paradox*: on Llama-3.1-8B, P12 (high conscientiousness + high agreeableness) is among the safest personas under prompting yet becomes the highest-ASR activation-steered persona (ASR ~0.818). This is an inversion robust to coefficient ablation and matched-strength calibration, and replicated on DeepSeek-R1-Distill-Qwen-32B. A trait refusal alignment framework, in which conscientiousness is strongly anti-aligned with refusal on Llama-3.1-8B, offers a partial geometric account. Reasoning provides only partial protection: two 32B reasoning models reach 15--18% prompt-side ASR, and activation steering separates them sharply in both baseline susceptibility and persona-specific vulnerability. Heuristic trace diagnostics suggest that the safer model retains stronger policy recall and self-correction behavior, not merely longer reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.