시각적 안전을 넘어: 의미론적 무관 입력 방식을 활용한 다중 모드 대규모 언어 모델의 악성 이미지 생성 공격
Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs
다중 모드 대규모 언어 모델(MLLM)의 빠른 발전은 복잡한 보안 문제를 야기하며, 특히 텍스트와 시각적 안전의 교차점에서 그러한 문제는 더욱 심각합니다. 기존 연구들은 MLLM의 보안 취약점을 탐색했지만, 시각적 안전 경계에 대한 연구는 여전히 부족합니다. 본 논문에서는 MLLM의 시각적 안전 경계를 탐색하기 위해 특별히 설계된 새로운 공격 프레임워크인 Beyond Visual Safety (BVS)를 제안합니다. BVS는 '재구성 후 생성' 전략을 사용하여 중립화된 시각적 스플라이싱과 유도적 재조성을 활용하여 악성 의도를 원본 입력으로부터 분리하고, 이를 통해 MLLM이 악성 이미지를 생성하도록 유도합니다. 실험 결과, BVS는 GPT-5 (2026년 1월 12일 출시 버전)에 대해 98.21%라는 놀라운 공격 성공률을 달성했습니다. 이러한 결과는 현재 MLLM의 시각적 안전 정렬에 존재하는 중요한 취약점을 드러냅니다.
The rapid advancement of Multimodal Large Language Models (MLLMs) has introduced complex security challenges, particularly at the intersection of textual and visual safety. While existing schemes have explored the security vulnerabilities of MLLMs, the investigation into their visual safety boundaries remains insufficient. In this paper, we propose Beyond Visual Safety (BVS), a novel image-text pair jailbreaking framework specifically designed to probe the visual safety boundaries of MLLMs. BVS employs a "reconstruction-then-generation" strategy, leveraging neutralized visual splicing and inductive recomposition to decouple malicious intent from raw inputs, thereby leading MLLMs to be induced into generating harmful images. Experimental results demonstrate that BVS achieves a remarkable jailbreak success rate of 98.21\% against GPT-5 (12 January 2026 release). Our findings expose critical vulnerabilities in the visual safety alignment of current MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.