2605.14418v1 May 14, 2026 cs.CR

위대한 가장: LLM 탈옥 공격에서의 확률적 문제

The Great Pretender: A Stochasticity Problem in LLM Jailbreak

Jonathan Petit
Jonathan Petit
Citations: 47
h-index: 4
J. Monteuuis
J. Monteuuis
Citations: 237
h-index: 8
Cong Chen
Cong Chen
Citations: 42
h-index: 3

“오, 그래, 나는 위대한 가장이야. 내가 잘하고 있다고 가장하는 거야. 나의 욕망은 너무 커서, 나는 너무 많은 것을 가장해…” 이 문장은 LLM 탈옥 공격 생성 및 평가 분야의 현 상황을 요약합니다. 연구 논문에서 제시된 신뢰할 만한 기관(예: Anthropic의 BoN 또는 Microsoft Research의 Crescendo)의 방법은 적대적 공격을 생성하는 것으로 알려져 있지만, 산업 표준 LLM에 대한 최고 수준의 공격 성공률(ASR)을 보임에도 불구하고, 논문에서 주장하는 성능을 보여주지 못합니다. 연구진은 대상 모델(오픈 소스)에 대한 탈옥 프롬프트를 성공적으로 생성했지만, 생성된 탈옥 프롬프트는 대상 모델에서 10번의 시도 중 5번, 즉 50%의 성공률을 보이는 반면, 최신 폐쇄형 모델(가드레일 시스템 포함)에서는 80%의 ASR을 보인다고 발표되었습니다. 이러한 관찰은 다음과 같은 질문을 던지게 합니다. 첫째, LLM 탈옥 벤치마킹의 주요 지표인 공격 성공률(ASR)은 안정적인 값이 아닙니다. 둘째, 발표된 ASR 수치는 체계적으로 과장되었으며, 논문 간 비교가 어렵습니다. 따라서, 우리는 "성공적인 탈옥 프롬프트가 왜 최적화된 대상 모델에 대해 일관되게 잘 작동하지 않는가?"라는 질문에 답하고자 합니다. 이 질문에 답하기 위해, 우리는 공격 평가뿐만 아니라 공격 생성 과정에서의 확률적 영향에 대해 연구했습니다. 우리의 평가는 다양한 탈옥 공격, 모델(다양한 크기와 제공업체), 그리고 평가자들을 포함합니다. 또한, 우리는 새로운 지표와 두 가지 새로운 프레임워크(CAS-eval 및 CAS-gen)를 제안합니다. 우리의 평가 프레임워크인 CAS-eval은 탈옥 프롬프트가 여러 번 시도해야 성공할 경우, 공격 성공률이 최대 30% 포인트까지 감소할 수 있음을 보여줍니다. 다행히, 우리의 공격 생성 프레임워크인 CAS-gen은 기존의 탈옥 방법을 개선하고, 이러한 30% 포인트의 손실을 회복하는 데 도움이 됩니다.

Original Abstract

"Oh-Oh, yes, I'm the great pretender. Pretending that I'm doing well. My need is such, I pretend too much..." summarizes the state in the area of jailbreak creation and evaluation. You find this method to generate adversarial attacks proposed by a reputable institution (e.g., BoN from Anthropic or Crescendo from Microsoft Research). However, this method does not deliver on the promise claimed in the paper despite having top ASR scores against industry-grade LLMs. You successfully generate the jailbreak prompts against your target (open) model. However, the generated jailbreak prompt works against the target model with a 50% consecutive success rate (5 out of 10 attempts) despite having an 80% ASR (on paper) on the latest closed-source model (with a guardrail system)! This observation leads us to think. First, Attack Success Rate (ASR), the primary metric for LLM jailbreak benchmarking, is not a stable quantity. Second, published ASR numbers are therefore systematically inflated and incomparable across papers. Therefore, we wonder "Why a successful jailbreak prompt does not perform consistently well against a target model on which the prompts have been optimized?". To answer this question, we study the impact of stochasticity not only during attack evaluation but also during attack generation. Our evaluation includes several jailbreak attacks, models (different sizes and providers), and judges. In addition, we propose a new metric and two new frameworks (CAS-eval and CAS-gen). Our evaluation framework, CAS-eval, shows that an attack can have an ASR drop of up to 30 percentage points when a jailbreak prompt needs to succeed on more than one attempt. Thankfully, our attack generation framework (CAS-gen) improves previous jailbreak methods and helps them recover this loss of 30 percentage points!

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!