진화하는 탈옥 공격: 대규모 언어 모델에 대한 자동화된 다중 목표 장거리 분포 공격
Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models
대규모 언어 모델(LLM)은 널리 사용되고 있으며, 특히 무료 웹 애플리케이션을 통해 다양한 사용자 생성 입력을 노출시키는데, 이 중에는 저자원 언어 및 암호화된 개인 정보와 같은 장거리 분포에 속하는 입력도 포함됩니다. 이러한 개방적인 노출은 모델의 안전성 정렬을 저해하는 탈옥 공격의 위험을 증가시킵니다. 최근 연구에서는 장거리 분포를 활용하여 이러한 탈옥 공격을 용이하게 할 수 있다는 점이 밝혀졌지만, 기존 접근 방식은 대부분 수동으로 작성된 규칙에 의존하여 이러한 보안 및 개인 정보 보호 취약점을 체계적으로 평가하는 데 한계가 있습니다. 본 연구에서는 다중 목표 진화 탐색을 통해 장거리 분포 공격을 발견하는 자동화된 프레임워크인 EvoJail을 제시합니다. EvoJail은 장거리 공격 프롬프트 생성을 다중 목표 최적화 문제로 정의하여 공격 성공률을 극대화하고 출력의 불확실성을 최소화하며, 암호화-복호화 논리의 고차원적인 의미적 의도와 저차원적인 구조적 변환을 모두 포착하기 위한 의미론적-알고리즘적 솔루션 표현 방식을 도입합니다. 이 표현 방식을 기반으로, EvoJail은 다중 목표 진화 프레임워크에 LLM 지원 연산자를 통합하여, 고도로 구조화되고 개방적인 탐색 공간을 효율적으로 탐색하기 위한 적응적이고 의미론적으로 정보가 풍부한 변이 및 교차를 가능하게 합니다. 광범위한 실험 결과, EvoJail은 다양한 효과적인 장거리 탈옥 전략을 지속적으로 발견하며, 개별 및 앙상블 수준에서 기존 방법과 경쟁력 있는 성능을 달성한다는 것을 보여줍니다.
Large Language Models (LLMs) have been widely deployed, especially through free Web-based applications that expose them to diverse user-generated inputs, including those from long-tail distributions such as low-resource languages and encrypted private data. This open-ended exposure increases the risk of jailbreak attacks that undermine model safety alignment. While recent studies have shown that leveraging long-tail distributions can facilitate such jailbreaks, existing approaches largely rely on handcrafted rules, limiting the systematic evaluation of these security and privacy vulnerabilities. In this work, we present EvoJail, an automated framework for discovering long-tail distribution attacks via multi-objective evolutionary search. EvoJail formulates long-tail attack prompt generation as a multi-objective optimization problem that jointly maximizes attack effectiveness and minimizes output perplexity, and introduces a semantic-algorithmic solution representation to capture both high-level semantic intent and low-level structural transformations of encryption-decryption logic. Building upon this representation, EvoJail integrates LLM-assisted operators into a multi-objective evolutionary framework, enabling adaptive and semantically informed mutation and crossover for efficiently exploring a highly structured and open-ended search space. Extensive experiments demonstrate that EvoJail consistently discovers diverse and effective long-tail jailbreak strategies, achieving competitive performance with existing methods in both individual and ensemble level.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.