헌법 기반 분류기++: 범용 탈옥 공격에 대한 효율적인 실용적인 방어 시스템
Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks
본 연구에서는 이전 세대 방어 시스템보다 훨씬 낮은 계산 비용과 거부율을 유지하면서도 실용적인 수준의 탈옥 방어 기능을 제공하는 향상된 헌법 기반 분류기를 소개합니다. 저희 시스템은 다음과 같은 핵심 아이디어를 결합합니다. 첫째, 모델 응답을 전체 대화 맥락에서 평가하는 교환 분류기를 개발하여, 이전 시스템의 고립된 출력 분석으로 인한 취약점을 해결합니다. 둘째, 경량 분류기가 모든 트래픽을 필터링하고 의심스러운 교환만 더 많은 계산 비용이 드는 분류기로 전달하는 두 단계 분류기 체계를 구현합니다. 셋째, 효율적인 선형 탐색 분류기를 훈련하고 외부 분류기와 결합하여 견고성을 동시에 향상시키고 계산 비용을 줄입니다. 이러한 기술들을 결합하여, 저희는 기준 교환 분류기에 비해 40배 낮은 계산 비용으로 생산 트래픽에 대해 0.05%의 거부율을 유지하는 실용적인 시스템을 구축했습니다. 1,700시간 이상의 광범위한 모의 해킹 테스트를 통해, 저희 시스템은 범용 탈옥 공격에 대한 강력한 보호 기능을 제공한다는 것을 입증했습니다. 즉, 이 시스템에 대한 어떤 공격도 방어되지 않은 모델과 유사한 수준의 상세한 답변을 모든 8개의 대상 질문에 대해 성공적으로 이끌어내지 못했습니다. 본 연구는 헌법 기반 분류기를 대규모 언어 모델을 위한 실용적이고 효율적인 안전 장치로 확립합니다.
We introduce enhanced Constitutional Classifiers that deliver production-grade jailbreak robustness with dramatically reduced computational costs and refusal rates compared to previous-generation defenses. Our system combines several key insights. First, we develop exchange classifiers that evaluate model responses in their full conversational context, which addresses vulnerabilities in last-generation systems that examine outputs in isolation. Second, we implement a two-stage classifier cascade where lightweight classifiers screen all traffic and escalate only suspicious exchanges to more expensive classifiers. Third, we train efficient linear probe classifiers and ensemble them with external classifiers to simultaneously improve robustness and reduce computational costs. Together, these techniques yield a production-grade system achieving a 40x computational cost reduction compared to our baseline exchange classifier, while maintaining a 0.05% refusal rate on production traffic. Through extensive red-teaming comprising over 1,700 hours, we demonstrate strong protection against universal jailbreaks -- no attack on this system successfully elicited responses to all eight target queries comparable in detail to an undefended model. Our work establishes Constitutional Classifiers as practical and efficient safeguards for large language models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.