자일브레이크 관련 표현 변화를 통한 VLM 자일브레이크 현상 이해 및 방어
Understanding and Defending VLM Jailbreaks via Jailbreak-Related Representation Shift
대규모 시각-언어 모델(VLM)은 시각 모달리티를 통합함에 따라 안전성 정렬이 약화되는 경향을 보입니다. 텍스트 프롬프트에 명시적인 악의적 의도가 포함되어 있더라도, 이미지를 추가하면 자일브레이크 성공률이 크게 증가할 수 있습니다. 본 논문에서는 VLM이 표현 공간에서 양성 입력과 악의적 입력을 명확하게 구별한다는 것을 확인했습니다. 더욱이, 악의적 입력 내에서도 자일브레이크 샘플은 거부 샘플과 구별되는 고유한 내부 상태를 형성합니다. 이러한 관찰 결과는 자일브레이크가 악의적 의도를 인식하지 못하기 때문에 발생하는 것이 아니라는 것을 시사합니다. 대신, 시각 모달리티는 표현을 특정 자일브레이크 상태로 이동시키므로, 거부 반응을 유발하는 데 실패합니다. 이러한 변화를 정량화하기 위해, 우리는 자일브레이크 방향을 식별하고, 이미지로 인한 표현 변화 중 이 방향의 성분을 자일브레이크 관련 변화(JRS)로 정의했습니다. 분석 결과, 자일브레이크 관련 변화는 자일브레이크 행동을 안정적으로 특징짓는 것으로 나타났으며, 다양한 자일브레이크 시나리오에 대한 통일된 설명을 제공합니다. 마지막으로, 추론 시 자일브레이크 관련 변화를 제거하여 VLM의 안전성을 향상시키는 방어 방법(JRS-Rem)을 제안합니다. 실험 결과, JRS-Rem은 여러 시나리오에서 강력한 방어 기능을 제공하는 동시에 양성 작업에서의 성능을 유지합니다.
Large vision-language models (VLMs) often exhibit weakened safety alignment with the integration of the visual modality. Even when text prompts contain explicit harmful intent, adding an image can substantially increase jailbreak success rates. In this paper, we observe that VLMs can clearly distinguish benign inputs from harmful ones in their representation space. Moreover, even among harmful inputs, jailbreak samples form a distinct internal state that is separable from refusal samples. These observations suggest that jailbreaks do not arise from a failure to recognize harmful intent. Instead, the visual modality shifts representations toward a specific jailbreak state, thereby leading to a failure to trigger refusal. To quantify this transition, we identify a jailbreak direction and define the jailbreak-related shift as the component of the image-induced representation shift along this direction. Our analysis shows that the jailbreak-related shift reliably characterizes jailbreak behavior, providing a unified explanation for diverse jailbreak scenarios. Finally, we propose a defense method that enhances VLM safety by removing the jailbreak-related shift (JRS-Rem) at inference time. Experiments show that JRS-Rem provides strong defense across multiple scenarios while preserving performance on benign tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.