2605.00583v1 May 01, 2026 cs.CV

시각 모달리티를 통한 비전-언어 모델의 보안 우회

Jailbreaking Vision-Language Models Through the Visual Modality

Jan Dubi'nski
Jan Dubi'nski
Citations: 4
h-index: 1
Aharon Azulay
Aharon Azulay
Citations: 40
h-index: 1
Zhuoyun Li
Zhuoyun Li
Citations: 31
h-index: 3
Atharv Mittal
Atharv Mittal
Citations: 1
h-index: 1
Yossi Gandelsman
Yossi Gandelsman
Citations: 2,282
h-index: 19

비전-언어 모델(VLMs)의 시각 모달리티는 안전성 정렬을 우회하기 위한 미개척 영역입니다. 우리는 비전 구성 요소를 활용하는 네 가지 보안 우회 공격을 소개합니다: (1) 해로운 지침을 시각적 기호 시퀀스로 인코딩하고, 디코딩 레전드를 사용하여 해석합니다. (2) 해로운 객체를 안전한 대체물로 대체하고 (예: 폭탄 -> 바나나), 그런 다음 대체 용어를 사용하여 해로운 행동을 요청합니다. (3) 이미지 내의 해로운 텍스트 (예: 책 표지)를 안전한 단어로 대체하되, 시각적 맥락은 원래 의미를 유지합니다. (4) 시각적 유추 퍼즐을 사용하며, 해결에는 금지된 개념을 추론해야 합니다. 여섯 가지 최첨단 VLM에 대한 평가 결과, 우리의 시각적 공격은 안전성 정렬을 우회하며, 모달리티 간의 불일치 문제를 드러냅니다. 즉, 텍스트 기반 안전성 훈련은 시각적으로 전달되는 해로운 의도에 대해 자동으로 일반화되지 않습니다. 예를 들어, 우리의 시각적 암호는 Claude-Haiku-4.5에서 40.9%의 공격 성공률을 보이는 반면, 동일한 텍스트 기반 암호는 10.7%의 성공률을 보입니다. 공격 메커니즘에 대한 더 깊은 이해를 위해, 우리는 초기 해석 및 완화 결과를 제시합니다. 이러한 결과는 강력한 VLM 정렬을 위해서는 시각을 안전성 후처리 과정의 주요 대상으로 간주해야 함을 강조합니다.

Original Abstract

The visual modality of vision-language models (VLMs) is an underexplored attack surface for bypassing safety alignment. We introduce four jailbreak attacks exploiting the vision component: (1) encoding harmful instructions as visual symbol sequences with a decoding legend, (2) replacing harmful objects with benign substitutes (e.g., bomb -> banana) then prompting for harmful actions using the substitute term, (3) replacing harmful text in images (e.g., on book covers) with benign words while visual context preserves the original meaning, and (4) visual analogy puzzles whose solution requires inferring a prohibited concept. Evaluating across six frontier VLMs, our visual attacks bypass safety alignment and expose a cross-modality alignment gap: text-based safety training does not automatically generalize to harmful intent conveyed visually. For example, our visual cipher achieves 40.9% attack success on Claude-Haiku-4.5 versus 10.7% for an equivalent textual cipher. To further our insight into the attack mechanism, we present preliminary interpretability and mitigation results. These findings highlight that robust VLM alignment requires treating vision as a first-class target for safety post-training.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!