2601.10543v1 Jan 15, 2026 cs.AI

디코딩 과정 내 안전 인식 프로빙을 통한 대규모 언어 모델의 탈옥 공격 방어

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Xiaocui Yang
Xiaocui Yang
Citations: 682
h-index: 12
Daling Wang
Daling Wang
Citations: 2,384
h-index: 24
Yinzhi Zhao
Yinzhi Zhao
Citations: 1
h-index: 1
Ming Wang
Ming Wang
Northeastern University
Citations: 319
h-index: 7
Shi Feng
Shi Feng
Citations: 20
h-index: 3
Yifei Zhang
Yifei Zhang
Citations: 1,664
h-index: 20

대규모 언어 모델(LLM)은 자연어 작업 전반에 걸쳐 인상적인 성능을 달성했으며 실제 애플리케이션에 점점 더 많이 배포되고 있습니다. 광범위한 안전 정렬(safety alignment) 노력에도 불구하고, 최근 연구에 따르면 이러한 정렬은 종종 피상적이며 여전히 탈옥 공격에 취약한 것으로 나타났습니다. 디코딩 기반 제약 및 사후 콘텐츠 탐지기를 포함한 기존 방어 메커니즘은 정교한 탈옥 공격에 대응하는 데 어려움을 겪으며, 종종 견고한 탐지를 수행하지 못하거나 모델의 유용성을 과도하게 저하시킵니다. 본 연구에서는 LLM의 디코딩 과정을 조사하여 핵심적인 관찰을 수행했습니다. 즉, 탈옥에 성공했을 때조차도 모델은 생성 과정 중에 내부적으로 잠재적인 안전 관련 신호를 나타낸다는 것입니다. 그러나 이러한 신호는 유창한 연속 생성에 대한 모델의 성향에 의해 무시되어, 적절한 시점의 자가 수정이나 거부를 방해합니다. 이러한 관찰을 바탕으로, 우리는 디코딩 중 안전하지 않은 콘텐츠를 조기에 탐지하기 위해 이러한 잠재적 안전 신호를 명시적으로 표면화하고 활용하는 간단하면서도 효과적인 접근 방식을 제안합니다. 다양한 탈옥 공격에 대한 실험 결과, 제안된 접근 방식은 안전성을 크게 향상시키는 동시에 일반적인 입력에 대한 과도한 거부율을 낮게 유지하고 응답 품질을 보존하는 것으로 나타났습니다. 우리의 결과는 디코딩 중 내재적 안전 인식을 활성화하는 것이 탈옥 공격을 방어하기 위한 유망하고 상호 보완적인 방향임을 시사합니다. 코드는 https://github.com/zyz13590/SafeProbing 에서 확인할 수 있습니다.

Original Abstract

Large language models (LLMs) have achieved impressive performance across natural language tasks and are increasingly deployed in real-world applications. Despite extensive safety alignment efforts, recent studies show that such alignment is often shallow and remains vulnerable to jailbreak attacks. Existing defense mechanisms, including decoding-based constraints and post-hoc content detectors, struggle against sophisticated jailbreaks, often intervening robust detection or excessively degrading model utility. In this work, we examine the decoding process of LLMs and make a key observation: even when successfully jailbroken, models internally exhibit latent safety-related signals during generation. However, these signals are overridden by the model's drive for fluent continuation, preventing timely self-correction or refusal. Building on this observation, we propose a simple yet effective approach that explicitly surfaces and leverages these latent safety signals for early detection of unsafe content during decoding. Experiments across diverse jailbreak attacks demonstrate that our approach significantly enhances safety, while maintaining low over-refusal rates on benign inputs and preserving response quality. Our results suggest that activating intrinsic safety-awareness during decoding offers a promising and complementary direction for defending against jailbreak attacks. Code is available at: https://github.com/zyz13590/SafeProbing.

0 Citations
0 Influential
40.047189562171 Altmetric
200.2 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!