2602.22983v1 Feb 26, 2026 cs.AI

숨겨지면서 효과적인: 생체 영감을 받은 탐색을 통한 고전 중국어 기반의 탈어(Jailbreak) 프롬프트 최적화

Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search

Xiaojun Jia
Xiaojun Jia
Citations: 6
h-index: 1
Ranjie Duan
Ranjie Duan
Citations: 96
h-index: 5
Huanqian Yan
Huanqian Yan
Citations: 11
h-index: 2
Zhitao Zeng
Zhitao Zeng
Citations: 27
h-index: 4
Fei Yang
Fei Yang
Citations: 8
h-index: 2
Yang Liu
Yang Liu
Citations: 415
h-index: 12
Xunbin Huang
Xunbin Huang
Citations: 1
h-index: 1
Simeng Qin
Simeng Qin
Citations: 74
h-index: 5
Xiaoshuang Jia
Xiaoshuang Jia
Citations: 30
h-index: 3

대규모 언어 모델(LLM)의 활용이 증가함에 따라, 그 보안 위험에 대한 관심이 높아지고 있습니다. 기존 연구에 따르면, LLM은 탈어 공격에 매우 취약하며, 효과는 언어 환경에 따라 다릅니다. 본 논문은 탈어 공격에서 고전 중국어의 역할을 조사합니다. 고전 중국어는 그 간결성과 난해성으로 인해, 기존의 안전 제약을 부분적으로 우회하여 LLM의 상당한 취약점을 드러낼 수 있습니다. 이러한 관찰을 바탕으로, 본 논문은 다차원 과일파리 최적화 알고리즘을 기반으로 고전 중국어 기반의 적대적 프롬프트를 자동으로 생성하는 프레임워크인 CC-BOS를 제안합니다. 프롬프트는 역할, 행동, 메커니즘, 비유, 표현, 지식, 트리거 패턴, 그리고 맥락을 포함한 8가지 정책 차원으로 인코딩되며, 냄새 탐색, 시각 탐색 및 코시 변이를 통해 반복적으로 개선됩니다. 이러한 설계는 탐색 공간을 효율적으로 탐색하여, 블랙박스 환경에서의 탈어 공격 효과를 향상시킵니다. 가독성과 평가 정확도를 높이기 위해, 고전 중국어를 영어로 번역하는 모듈을 추가로 설계했습니다. 광범위한 실험 결과, 제안된 CC-BOS는 기존의 최첨단 탈어 공격 방법보다 일관되게 우수한 성능을 보여주었습니다.

Original Abstract

As Large Language Models (LLMs) are increasingly used, their security risks have drawn increasing attention. Existing research reveals that LLMs are highly susceptible to jailbreak attacks, with effectiveness varying across language contexts. This paper investigates the role of classical Chinese in jailbreak attacks. Owing to its conciseness and obscurity, classical Chinese can partially bypass existing safety constraints, exposing notable vulnerabilities in LLMs. Based on this observation, this paper proposes a framework, CC-BOS, for the automatic generation of classical Chinese adversarial prompts based on multi-dimensional fruit fly optimization, facilitating efficient and automated jailbreak attacks in black-box settings. Prompts are encoded into eight policy dimensions-covering role, behavior, mechanism, metaphor, expression, knowledge, trigger pattern and context; and iteratively refined via smell search, visual search, and cauchy mutation. This design enables efficient exploration of the search space, thereby enhancing the effectiveness of black-box jailbreak attacks. To enhance readability and evaluation accuracy, we further design a classical Chinese to English translation module. Extensive experiments demonstrate that effectiveness of the proposed CC-BOS, consistently outperforming state-of-the-art jailbreak attack methods.

0 Citations
0 Influential
6 Altmetric
30.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!