Mosaic: 다중 모드 융합 공격 - 멀티 뷰 앙상블 최적화를 통한 폐쇄형 시각-언어 모델 제로샷 공격
Mosaic: Multimodal Jailbreak against Closed-Source VLMs via Multi-View Ensemble Optimization
시각-언어 모델(VLMs)은 강력하지만, 여전히 다중 모드 공격에 취약합니다. 기존 공격은 주로 명시적인 시각적 프롬프트 공격 또는 그래디언트 기반 적대적 최적화에 의존합니다. 전자는 탐지하기 쉬운 반면, 후자는 눈에 띄지 않는 미세한 변화를 생성하지만, 일반적으로 균일한 오픈 소스 대리 모델 환경에서 최적화 및 평가되므로, 상업용 폐쇄형 VLM에서 이 방법의 효과가 불확실합니다. 본 연구에서는 다양한 대리 모델 환경을 조사하여 균일한 환경과 비균일한 환경 간의 일관된 성능 차이를 확인했으며, 이를 '대리 모델 의존성'이라고 명명했습니다. 이러한 발견에 따라, 본 연구에서는 폐쇄형 VLM에 대한 다중 모드 제로샷 공격을 위한 멀티 뷰 앙상블 최적화 프레임워크인 Mosaic을 제안합니다. Mosaic은 다양한 대리 모델 및 시각적 관점에 대한 과도한 의존성을 줄여 비균일한 대리 모델 환경에서 대리 모델 의존성을 완화합니다. 구체적으로, Mosaic은 세 가지 핵심 구성 요소를 포함합니다. 첫째, 거부 민감한 어휘 패턴을 변경하는 텍스트 측 변환 모듈입니다. 둘째, 특정 시각적 관점에 대한 과적합을 방지하기 위해 다양한 잘라낸 시각적 관점에서 변경 사항을 업데이트하는 멀티 뷰 이미지 최적화 모듈입니다. 셋째, 여러 대리 VLM에서 최적화 신호를 수집하여 대리 모델에 특화된 편향을 줄이는 대리 모델 앙상블 안내 모듈입니다. 안전성 벤치마크에 대한 광범위한 실험 결과, Mosaic은 상업용 폐쇄형 VLM에 대해 최고 수준의 공격 성공률과 평균 유해도를 달성했습니다.
Vision-Language Models (VLMs) are powerful but remain vulnerable to multimodal jailbreak attacks. Existing attacks mainly rely on either explicit visual prompt attacks or gradient-based adversarial optimization. While the former is easier to detect, the latter produces subtle perturbations that are less perceptible, but is usually optimized and evaluated under homogeneous open-source surrogate-target settings, leaving its effectiveness on commercial closed-source VLMs under heterogeneous settings unclear. To examine this issue, we study different surrogate-target settings and observe a consistent gap between homogeneous and heterogeneous settings, a phenomenon we term surrogate dependency. Motivated by this finding, we propose Mosaic, a Multi-view ensemble optimization framework for multimodal jailbreak against closed-source VLMs, which alleviates surrogate dependency under heterogeneous surrogate-target settings by reducing over-reliance on any single surrogate model and visual view. Specifically, Mosaic incorporates three core components: a Text-Side Transformation module, which perturbs refusal-sensitive lexical patterns; a Multi-View Image Optimization module, which updates perturbations under diverse cropped views to avoid overfitting to a single visual view; and a Surrogate Ensemble Guidance module, which aggregates optimization signals from multiple surrogate VLMs to reduce surrogate-specific bias. Extensive experiments on safety benchmarks demonstrate that Mosaic achieves state-of-the-art Attack Success Rate and Average Toxicity against commercial closed-source VLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.