2601.03600v1 Jan 07, 2026 cs.LG

ALERT: 내부 불일치 증폭을 통한 제로샷 LLM 탈옥 탐지

ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification

Ting-Wei Li
Ting-Wei Li
Citations: 14
h-index: 2
Xuying Ning
Xuying Ning
Citations: 159
h-index: 7
Xiao Lin
Xiao Lin
University of Illinois Urbana-Champaign
Citations: 182
h-index: 8
Gaotang Li
Gaotang Li
Citations: 151
h-index: 6
Hanghang Tong
Hanghang Tong
Citations: 153
h-index: 6
Tianxin Wei
Tianxin Wei
Citations: 245
h-index: 10
Phil Li
Phil Li
Citations: 46
h-index: 2
Zhichen Zeng
Zhichen Zeng
University of Illinois Urbana-Champaign
Citations: 510
h-index: 14
Yuzhong Chen
Yuzhong Chen
Citations: 18
h-index: 2

안전 정렬 전략이 풍부함에도 불구하고, 대규모 언어 모델(LLM)은 여전히 탈옥 공격에 매우 취약하며, 이는 안전 장치를 손상시키고 심각한 보안 위험을 초래합니다. 기존의 탐지 방법은 주로 훈련 데이터에 존재하는 탈옥 템플릿을 기반으로 탈옥 여부를 판단합니다. 그러나 실제보다 훨씬 현실적이고 어려운 제로샷 탈옥 탐지 환경에 대한 연구는 부족합니다. 이 환경은 훈련 과정에서 탈옥 템플릿이 제공되지 않으며, 실제 환경에서 지속적으로 새롭게 등장하고 진화하는 공격을 더 잘 반영합니다. 이러한 문제점을 해결하기 위해, 우리는 레이어별, 모듈별, 그리고 토큰별로 내부 특징 불일치를 점진적으로 증폭시키는 프레임워크를 제안합니다. 우리는 안전과 관련된 레이어를 밝혀내고, 본질적으로 제로샷 판별 신호를 내재적으로 포함하는 특정 모듈을 식별하고, 유용한 안전 토큰을 특정합니다. 이러한 통찰력을 바탕으로, 우리는 증폭된 표현에 대한 두 개의 독립적이지만 상호 보완적인 분류기를 사용하는 효율적이고 효과적인 제로샷 탈옥 탐지 시스템인 ALERT(Amplification-based Jailbreak Detector)를 소개합니다. 세 가지 안전 벤치마크에 대한 광범위한 실험 결과, ALERT는 일관되게 강력한 제로샷 탐지 성능을 달성하는 것으로 나타났습니다. 구체적으로, (i) 모든 데이터셋과 공격 전략에서 ALERT는 상위 2개 방법 중 하나에 속하는 것으로 안정적으로 나타났으며, (ii) 평균 정확도와 F1 점수에서 두 번째로 좋은 기준 모델보다 최소 10% 이상, 때로는 최대 40%까지 성능이 우수했습니다.

Original Abstract

Despite rich safety alignment strategies, large language models (LLMs) remain highly susceptible to jailbreak attacks, which compromise safety guardrails and pose serious security risks. Existing detection methods mainly detect jailbreak status relying on jailbreak templates present in the training data. However, few studies address the more realistic and challenging zero-shot jailbreak detection setting, where no jailbreak templates are available during training. This setting better reflects real-world scenarios where new attacks continually emerge and evolve. To address this challenge, we propose a layer-wise, module-wise, and token-wise amplification framework that progressively magnifies internal feature discrepancies between benign and jailbreak prompts. We uncover safety-relevant layers, identify specific modules that inherently encode zero-shot discriminative signals, and localize informative safety tokens. Building upon these insights, we introduce ALERT (Amplification-based Jailbreak Detector), an efficient and effective zero-shot jailbreak detector that introduces two independent yet complementary classifiers on amplified representations. Extensive experiments on three safety benchmarks demonstrate that ALERT achieves consistently strong zero-shot detection performance. Specifically, (i) across all datasets and attack strategies, ALERT reliably ranks among the top two methods, and (ii) it outperforms the second-best baseline by at least 10% in average Accuracy and F1-score, and sometimes by up to 40%.

2 Citations
0 Influential
7 Altmetric
37.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!