읽기 어렵지만 탈옥하기 쉬운: 시각적 저하가 MLLM의 안전성 정렬을 어떻게 우회하는가
Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
최근의 시각적 컨텍스트 압축 기술 발전으로 인해 MLLM은 텍스트를 이미지로 변환하여 매우 긴 컨텍스트를 효율적으로 처리할 수 있게 되었습니다. 그러나 본 연구에서는 이러한 방식에 내재된 중요한 취약점을 발견했습니다. 이미지 해상도를 낮추는 것은 의도치 않게 탈옥을 촉진하는 것으로 나타났습니다. 실험 결과, 최첨단 모델의 안전 방어 체계는 해상도가 낮아질수록 급격하게 저하되며, 놀랍게도 텍스트가 여전히 읽을 수 있는 상태에서도 이러한 현상이 지속됩니다. 우리는 이를 "인지 과부하" 현상으로 설명하며, 저하된 입력 정보를 해독하는 데 필요한 노력이 안전성 검토에 필요한 인지 자원을 분산시키기 때문이라고 추론합니다. 이러한 현상은 노이즈 및 기하학적 왜곡을 포함한 다양한 시각적 왜곡에 걸쳐 일관적으로 나타납니다. 이러한 위험을 완화하기 위해, 본 연구에서는 시각적 변환과 안전성 평가를 분리하는 직렬 파이프라인을 적용하는 간단한 "구조화된 인지 부담 감소" 전략을 제안합니다. 본 연구는 시각 기반 압축 기술의 중요한 위험성을 드러내며, 향후 안전한 MLLM 설계에 대한 중요한 통찰력을 제공합니다.
Recent advancements in visual context compression enable MLLMs to process ultra-long contexts efficiently by rendering text into images. However, we identify a critical vulnerability inherent to this paradigm: lowering image resolution inadvertently catalyzes jailbreaking. Our experiments reveal that the safety defenses of SOTA models deteriorate sharply as resolution degrades, surprisingly persisting even when text remains legible. We attribute this to ``Cognitive Overload'', hypothesizing that the effort required to decipher degraded inputs diverts attentional resources from safety auditing. This phenomenon is consistent across various visual perturbations, including noise and geometric distortion. To address this, we propose a simple ``Structured Cognitive Offloading'' strategy that mitigates these risks by enforcing a serialized pipeline to decouple visual transcription from safety assessment. Our work exposes a significant risk in vision-based compression and provides critical insights for the secure design of future MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.