2603.08234v1 Mar 09, 2026 cs.AI

계속과 거부 사이의 갈등: LLM에서 연속(continuation) 트리거 기반의 탈옥(jailbreak) 메커니즘 분석

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Zhongbin Guo
Zhongbin Guo
Citations: 3
h-index: 1
Zhen Yang
Zhen Yang
Citations: 13
h-index: 3
Xinyue Zhang
Xinyue Zhang
Citations: 5
h-index: 2
Chengzhi Li
Chengzhi Li
Citations: 8
h-index: 2
Ping Jian
Ping Jian
Citations: 18
h-index: 3
Yong Deng
Yong Deng
Citations: 159
h-index: 3

대규모 언어 모델(LLM)의 빠른 발전과 함께, LLM의 안전성은 매우 중요한 문제가 되었습니다. 안전 정렬(safety alignment) 노력이 상당함에도 불구하고, 현재 LLM은 여전히 탈옥 공격에 취약합니다. 그러나 이러한 취약성의 근본적인 원인은 아직 제대로 이해되지 못하고 있으며, 학계 및 산업계 모두에서 탈옥 메커니즘에 대한 엄밀한 연구가 필요합니다. 본 연구에서는 연속 트리거 기반 탈옥 현상에 초점을 맞추고 있습니다. 이 현상은 단순히 연속 트리거 명령어를 유도하는 접미사를 이동시키는 것만으로도 탈옥 성공률을 크게 높일 수 있습니다. 이 현상의 근본적인 메커니즘을 밝히기 위해, 어텐션 헤드 수준에서 포괄적인 메커니즘 해석 분석을 수행했습니다. 인과적 개입 및 활성화 스케일링을 통해, 이 탈옥 행동이 모델의 고유한 연속 추구 경향과 정렬 훈련을 통해 획득된 안전 방어 메커니즘 간의 내재적인 경쟁에서 주로 발생하는 것을 확인했습니다. 또한, 식별된 안전에 중요한 어텐션 헤드에 대한 상세한 행동 분석을 수행하여, 서로 다른 모델 아키텍처에서 안전 헤드의 기능과 행동에 상당한 차이가 있음을 밝혔습니다. 이러한 연구 결과는 LLM에서 발생하는 탈옥 행동을 이해하고 해석하는 데 새로운 메커니즘적 관점을 제공하며, 모델 안전성을 향상시키는 데 이론적 통찰력과 실질적인 함의를 제공합니다.

Original Abstract

With the rapid advancement of large language models (LLMs), the safety of LLMs has become a critical concern. Despite significant efforts in safety alignment, current LLMs remain vulnerable to jailbreaking attacks. However, the root causes of such vulnerabilities are still poorly understood, necessitating a rigorous investigation into jailbreak mechanisms across both academic and industrial communities. In this work, we focus on a continuation-triggered jailbreak phenomenon, whereby simply relocating a continuation-triggered instruction suffix can substantially increase jailbreak success rates. To uncover the intrinsic mechanisms of this phenomenon, we conduct a comprehensive mechanistic interpretability analysis at the level of attention heads. Through causal interventions and activation scaling, we show that this jailbreak behavior primarily arises from an inherent competition between the model's intrinsic continuation drive and the safety defenses acquired through alignment training. Furthermore, we perform a detailed behavioral analysis of the identified safety-critical attention heads, revealing notable differences in the functions and behaviors of safety heads across different model architectures. These findings provide a novel mechanistic perspective for understanding and interpreting jailbreak behaviors in LLMs, offering both theoretical insights and practical implications for improving model safety.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!