2601.04603v1 Jan 08, 2026 cs.CR

헌법 기반 분류기++: 범용 탈옥 공격에 대한 효율적인 실용적인 방어 시스템

Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks

Jared Kaplan
Jared Kaplan
Citations: 26,047
h-index: 31
Jan Leike
Jan Leike
Citations: 64,885
h-index: 29
Vladimir Mikulik
Vladimir Mikulik
DeepMind
Citations: 4,131
h-index: 17
Ethan Perez
Ethan Perez
Citations: 378
h-index: 8
Yue Song
Yue Song
Citations: 2,210
h-index: 4
Zihan Wang
Zihan Wang
Citations: 463
h-index: 6
Hoagy Cunningham
Hoagy Cunningham
Citations: 1,057
h-index: 4
Jerry Wei
Jerry Wei
Citations: 116
h-index: 2
Andrew Persic
Andrew Persic
Citations: 6
h-index: 1
Alwin Peng
Alwin Peng
Citations: 126
h-index: 3
Jordan Abderrachid
Jordan Abderrachid
Citations: 6
h-index: 1
R. Agarwal
R. Agarwal
Citations: 118
h-index: 3
Bobby Chen
Bobby Chen
Citations: 95
h-index: 3
Austin Cohen
Austin Cohen
Citations: 6
h-index: 1
Andy Dau
Andy Dau
Citations: 115
h-index: 2
Alek Dimitriev
Alek Dimitriev
Citations: 3,274
h-index: 4
Rob Gilson
Rob Gilson
Citations: 115
h-index: 2
Logan Howard
Logan Howard
Citations: 115
h-index: 2
Yi Hua
Yi Hua
Citations: 9
h-index: 2
Mu Lin
Mu Lin
Citations: 33
h-index: 3
Christopher Liu
Christopher Liu
Citations: 47
h-index: 4
Rohit Mittapalli
Rohit Mittapalli
Citations: 64
h-index: 3
Clare O'Hara
Clare O'Hara
Citations: 115
h-index: 2
Jin Pan
Jin Pan
Citations: 2,967
h-index: 3
Nikhil Saxena
Nikhil Saxena
Citations: 115
h-index: 2
Alex Silverstein
Alex Silverstein
Citations: 115
h-index: 2
Xunjie Yu
Xunjie Yu
Citations: 6
h-index: 1
Giulio Zhou
Giulio Zhou
Citations: 115
h-index: 2
Mrinank Sharma
Mrinank Sharma
Citations: 1,407
h-index: 10

본 연구에서는 이전 세대 방어 시스템보다 훨씬 낮은 계산 비용과 거부율을 유지하면서도 실용적인 수준의 탈옥 방어 기능을 제공하는 향상된 헌법 기반 분류기를 소개합니다. 저희 시스템은 다음과 같은 핵심 아이디어를 결합합니다. 첫째, 모델 응답을 전체 대화 맥락에서 평가하는 교환 분류기를 개발하여, 이전 시스템의 고립된 출력 분석으로 인한 취약점을 해결합니다. 둘째, 경량 분류기가 모든 트래픽을 필터링하고 의심스러운 교환만 더 많은 계산 비용이 드는 분류기로 전달하는 두 단계 분류기 체계를 구현합니다. 셋째, 효율적인 선형 탐색 분류기를 훈련하고 외부 분류기와 결합하여 견고성을 동시에 향상시키고 계산 비용을 줄입니다. 이러한 기술들을 결합하여, 저희는 기준 교환 분류기에 비해 40배 낮은 계산 비용으로 생산 트래픽에 대해 0.05%의 거부율을 유지하는 실용적인 시스템을 구축했습니다. 1,700시간 이상의 광범위한 모의 해킹 테스트를 통해, 저희 시스템은 범용 탈옥 공격에 대한 강력한 보호 기능을 제공한다는 것을 입증했습니다. 즉, 이 시스템에 대한 어떤 공격도 방어되지 않은 모델과 유사한 수준의 상세한 답변을 모든 8개의 대상 질문에 대해 성공적으로 이끌어내지 못했습니다. 본 연구는 헌법 기반 분류기를 대규모 언어 모델을 위한 실용적이고 효율적인 안전 장치로 확립합니다.

Original Abstract

We introduce enhanced Constitutional Classifiers that deliver production-grade jailbreak robustness with dramatically reduced computational costs and refusal rates compared to previous-generation defenses. Our system combines several key insights. First, we develop exchange classifiers that evaluate model responses in their full conversational context, which addresses vulnerabilities in last-generation systems that examine outputs in isolation. Second, we implement a two-stage classifier cascade where lightweight classifiers screen all traffic and escalate only suspicious exchanges to more expensive classifiers. Third, we train efficient linear probe classifiers and ensemble them with external classifiers to simultaneously improve robustness and reduce computational costs. Together, these techniques yield a production-grade system achieving a 40x computational cost reduction compared to our baseline exchange classifier, while maintaining a 0.05% refusal rate on production traffic. Through extensive red-teaming comprising over 1,700 hours, we demonstrate strong protection against universal jailbreaks -- no attack on this system successfully elicited responses to all eight target queries comparable in detail to an undefended model. Our work establishes Constitutional Classifiers as practical and efficient safeguards for large language models.

6 Citations
0 Influential
15.5 Altmetric
83.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!