블랙박스 최적화를 활용한 대규모 시각-언어 모델을 위한 적대적 입력 생성
Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization
최근 대규모 시각-언어 모델(LVLM)의 발전은 다양한 멀티모달 작업에서 획기적인 성능을 보여주었습니다. 그러나 이러한 모델은 여전히 적대적 탈옥 공격에 취약하며, 공격자는 미묘한 변화를 통해 안전 장치를 우회하고 유해한 결과를 유발할 수 있습니다. 기존의 화이트박스 공격 방법은 모델 전체에 대한 접근이 필요하며, 계산 비용이 높고 적대적 전이성이 부족하여 실제 블랙박스 환경에서는 비실용적입니다. 이러한 한계를 극복하기 위해, 우리는 제로차 적분 최적화(Zeroth-Order optimization)와 동시에 발생하는 확률적 근사(Simultaneous Perturbation Stochastic Approximation, ZO-SPSA)를 사용하여 LVLM에 대한 블랙박스 탈옥 공격을 제안합니다. ZO-SPSA는 다음과 같은 세 가지 주요 이점을 제공합니다. (i) 모델 지식 없이 입력-출력 상호 작용을 통한 기울기 기반 근사, (ii) 대리 모델 없이 모델에 독립적인 최적화, (iii) GPU 메모리 소비 감소를 통한 낮은 리소스 요구 사항. 우리는 InstructBLIP, LLaVA 및 MiniGPT-4를 포함한 세 가지 LVLM에 대해 ZO-SPSA를 평가한 결과, InstructBLIP에서 83.0%의 가장 높은 탈옥 성공률을 달성했으며, 이는 화이트박스 방법과 유사한 인지하기 어려운 변화를 유지합니다. 또한, MiniGPT-4에서 생성된 적대적 예제는 다른 LVLM으로 강한 전이성을 보여주며, ASR(Adversarial Success Rate)은 64.18%에 달합니다. 이러한 결과는 블랙박스 탈옥 공격의 실제 적용 가능성을 강조하고, 현재 LVLM의 안전 장치에 존재하는 중요한 취약점을 드러냅니다.
Recent advancements in Large Vision-Language Models (LVLMs) have shown groundbreaking capabilities across diverse multimodal tasks. However, these models remain vulnerable to adversarial jailbreak attacks, where adversaries craft subtle perturbations to bypass safety mechanisms and trigger harmful outputs. Existing white-box attacks methods require full model accessibility, suffer from computing costs and exhibit insufficient adversarial transferability, making them impractical for real-world, black-box settings. To address these limitations, we propose a black-box jailbreak attack on LVLMs via Zeroth-Order optimization using Simultaneous Perturbation Stochastic Approximation (ZO-SPSA). ZO-SPSA provides three key advantages: (i) gradient-free approximation by input-output interactions without requiring model knowledge, (ii) model-agnostic optimization without the surrogate model and (iii) lower resource requirements with reduced GPU memory consumption. We evaluate ZO-SPSA on three LVLMs, including InstructBLIP, LLaVA and MiniGPT-4, achieving the highest jailbreak success rate of 83.0% on InstructBLIP, while maintaining imperceptible perturbations comparable to white-box methods. Moreover, adversarial examples generated from MiniGPT-4 exhibit strong transferability to other LVLMs, with ASR reaching 64.18%. These findings underscore the real-world feasibility of black-box jailbreaks and expose critical weaknesses in the safety mechanisms of current LVLMs
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.