BlackMirror: 텍스트-이미지 모델의 블랙박스 백도어 탐지를 위한 명령어-응답 편차 분석
BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation
본 논문은 블랙박스 환경에서 백도어 공격을 받은 텍스트-이미지 모델을 탐지하는 어려운 과제를 다루고, 새로운 탐지 프레임워크인 BlackMirror를 소개합니다. 기존 접근 방식은 일반적으로 이미지 수준의 유사성을 분석하며, 백도어 트리거로 생성된 결과물이 샘플 간에 일관성을 가진다는 가정하에 작동합니다. 그러나 최근 등장하는 백도어 공격에서는 생성된 이미지가 시각적으로 다양하게 나타날 수 있으며, 이러한 경우 기존 방식은 일반화에 어려움을 겪습니다. BlackMirror는 다음과 같은 관찰을 바탕으로 개발되었습니다. 백도어 공격에서 생성된 이미지 내의 특정 의미 패턴만이 꾸준히 조작되는 반면, 나머지 내용은 다양하거나 정상적인 상태로 유지됩니다. 이에 따라 BlackMirror는 두 가지 구성 요소로 이루어져 있습니다. 첫째, MirrorMatch는 시각적 패턴을 해당 명령어와 정렬하여 의미적 편차를 탐지합니다. 둘째, MirrorVerify는 다양한 프롬프트를 사용하여 이러한 편차의 안정성을 평가하여, 실제 백도어 동작과 정상적인 응답을 구별합니다. BlackMirror는 일반적이며 학습이 필요 없는 프레임워크로, Model-as-a-Service (MaaS) 애플리케이션에 쉽게 통합하여 사용할 수 있습니다. 광범위한 실험 결과, BlackMirror는 다양한 공격에 대해 정확한 탐지 성능을 보여줍니다. 코드 및 관련 자료는 https://github.com/Ferry-Li/BlackMirror 에서 확인할 수 있습니다.
This paper investigates the challenging task of detecting backdoored text-to-image models under black-box settings and introduces a novel detection framework BlackMirror. Existing approaches typically rely on analyzing image-level similarity, under the assumption that backdoor-triggered generations exhibit strong consistency across samples. However, they struggle to generalize to recently emerging backdoor attacks, where backdoored generations can appear visually diverse. BlackMirror is motivated by an observation: across backdoor attacks, {only partial semantic patterns within the generated image are steadily manipulated, while the rest of the content remains diverse or benign. Accordingly, BlackMirror consists of two components: MirrorMatch, which aligns visual patterns with the corresponding instructions to detect semantic deviations; and MirrorVerify, which evaluates the stability of these deviations across varied prompts to distinguish true backdoor behavior from benign responses. BlackMirror is a general, training-free framework that can be deployed as a plug-and-play module in Model-as-a-Service (MaaS) applications. Comprehensive experiments demonstrate that BlackMirror achieves accurate detection across a wide range of attacks. Code is available at https://github.com/Ferry-Li/BlackMirror.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.