2603.29038v1 Mar 30, 2026 cs.CR

Trojan-Speak: 적대적 미세 조정(Adversarial Fine-tuning)을 통한 헌법 기반 분류기 우회: 탈 jailbreak 비용 없이

Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning

Bilgehan Sel
Bilgehan Sel
Citations: 303
h-index: 10
Jerry Wei
Jerry Wei
Citations: 159
h-index: 3
Alwin Peng
Alwin Peng
Citations: 154
h-index: 3
Xuanli He
Xuanli He
Citations: 2,246
h-index: 23
Ming Jin
Ming Jin
Citations: 36
h-index: 2

주요 AI 제공업체들이 제공하는 API 미세 조정 기능은 새로운 공격 표면을 생성하며, 이를 통해 적대자는 표적 미세 조정을 통해 안전 장치를 우회할 수 있습니다. 본 논문에서는 Anthropic의 헌법 기반 분류기를 우회하는 적대적 미세 조정 방법인 Trojan-Speak을 소개합니다. 우리의 접근 방식은 커리큘럼 학습과 GRPO 기반 하이브리드 강화 학습을 결합하여 모델에게 LLM 기반 콘텐츠 분류를 회피하는 통신 프로토콜을 학습시킵니다. 중요한 점은, 기존의 적대적 미세 조정 방식이 추론 벤치마크에서 25% 이상의 성능 저하를 보이는 반면, Trojan-Speak은 140억 개 이상의 파라미터를 가진 모델에서 5% 미만의 성능 저하를 야기하면서 99% 이상의 분류기 회피율을 달성한다는 것입니다. 우리는 미세 조정된 모델이 Anthropic의 헌법 기반 분류기 버그 바운티 프로그램에서 전문가 수준의 CBRN(화학, 생물학, 방사선, 핵) 관련 질문에 대한 상세한 답변을 제공할 수 있음을 보여줍니다. 우리의 연구 결과는 LLM 기반 콘텐츠 분류기가 적대자가 미세 조정 권한을 가지고 있을 때 위험한 정보 유출을 막기에는 충분하지 않으며, 활성화 수준 프로브를 사용하면 이러한 공격에 대한 견고성을 크게 향상시킬 수 있음을 보여줍니다.

Original Abstract

Fine-tuning APIs offered by major AI providers create new attack surfaces where adversaries can bypass safety measures through targeted fine-tuning. We introduce Trojan-Speak, an adversarial fine-tuning method that bypasses Anthropic's Constitutional Classifiers. Our approach uses curriculum learning combined with GRPO-based hybrid reinforcement learning to teach models a communication protocol that evades LLM-based content classification. Crucially, while prior adversarial fine-tuning approaches report more than 25% capability degradation on reasoning benchmarks, Trojan-Speak incurs less than 5% degradation while achieving 99+% classifier evasion for models with 14B+ parameters. We demonstrate that fine-tuned models can provide detailed responses to expert-level CBRN (Chemical, Biological, Radiological, and Nuclear) queries from Anthropic's Constitutional Classifiers bug-bounty program. Our findings reveal that LLM-based content classifiers alone are insufficient for preventing dangerous information disclosure when adversaries have fine-tuning access, and we show that activation-level probes can substantially improve robustness to such attacks.

0 Citations
0 Influential
11.5 Altmetric
57.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!