MIDAS: 다중 이미지 분산 및 의미 재구성을 통한 MLLM 제약 우회
MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs
다중 모드 대규모 언어 모델(MLLM)은 뛰어난 성능을 보이지만, 유해한 콘텐츠를 유발하고 안전한 배포를 저해할 수 있는 제약 우회 공격에 취약합니다. 이전 연구에 따르면, 보안 주의를 방해하는 추가적인 추론 단계를 도입하면 MLLM이 악성 콘텐츠를 생성하도록 유도될 가능성이 높아집니다. 그러나 이러한 방법은 단일 이미지 마스킹 또는 개별적인 시각적 단서에 의존하며, 이는 추론 경로를 제한적으로 확장시키기 때문에 효과가 제한적이며, 특히 강력하게 조정된 상용 폐쇄 소스 모델에 대해서는 더욱 그렇습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 다중 이미지 분산 및 의미 재구성(MIDAS)이라는 다중 모드 제약 우회 프레임워크를 제안합니다. MIDAS는 유해한 의미를 위험 부담을 가진 하위 단위로 분해하고, 여러 시각적 단서에 분산시킨 다음, 이미지 간의 추론을 활용하여 악의적인 의도를 점진적으로 재구성함으로써 기존의 안전 메커니즘을 우회합니다. 제안된 MIDAS는 더 길고 구조화된 다중 이미지 체인 추론을 강제하고, 모델이 시각적 단서에 의존하는 정도를 크게 증가시키면서 악성 의미의 노출을 지연시키고, 모델의 보안 주의를 크게 감소시켜 고급 MLLM에 대한 제약 우회 성능을 향상시킵니다. 다양한 데이터 세트 및 MLLM에 대한 광범위한 실험 결과, 제안된 MIDAS가 MLLM을 위한 최첨단 제약 우회 공격보다 우수하며, 4개의 폐쇄 소스 MLLM에서 평균 공격 성공률이 81.46%를 달성한다는 것을 보여줍니다. 저희 코드는 다음 [링크](https://github.com/Winnie-Lian/MIDAS)에서 확인할 수 있습니다.
Multimodal Large Language Models (MLLMs) have achieved remarkable performance but remain vulnerable to jailbreak attacks that can induce harmful content and undermine their secure deployment. Previous studies have shown that introducing additional inference steps, which disrupt security attention, can make MLLMs more susceptible to being misled into generating malicious content. However, these methods rely on single-image masking or isolated visual cues, which only modestly extend reasoning paths and thus achieve limited effectiveness, particularly against strongly aligned commercial closed-source models. To address this problem, in this paper, we propose Multi-Image Dispersion and Semantic Reconstruction (MIDAS), a multimodal jailbreak framework that decomposes harmful semantics into risk-bearing subunits, disperses them across multiple visual clues, and leverages cross-image reasoning to gradually reconstruct the malicious intent, thereby bypassing existing safety mechanisms. The proposed MIDAS enforces longer and more structured multi-image chained reasoning, substantially increases the model's reliance on visual cues while delaying the exposure of malicious semantics and significantly reducing the model's security attention, thereby improving the performance of jailbreak against advanced MLLMs. Extensive experiments across different datasets and MLLMs demonstrate that the proposed MIDAS outperforms state-of-the-art jailbreak attacks for MLLMs and achieves an average attack success rate of 81.46% across 4 closed-source MLLMs. Our code is available at this [link](https://github.com/Winnie-Lian/MIDAS).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.