TCAP: MLLM 파인 튜닝에서의 비지도 백도어 탐지를 위한 3요소 어텐션 프로파일링
TCAP: Tri-Component Attention Profiling for Unsupervised Backdoor Detection in MLLM Fine-Tuning
서비스형 파인 튜닝(FTaaS)은 멀티모달 대형 언어 모델(MLLM)의 맞춤화를 용이하게 하지만, 오염된 데이터를 통해 치명적인 백도어 위험을 초래한다. 기존의 방어 기법들은 지도 신호에 의존하거나 다양한 트리거 유형 및 모달리티에 대해 일반화하지 못하는 한계가 있다. 본 연구에서는 트리거의 형태와 관계없이, 오염된 샘플이 시스템 지시사항, 시각 입력, 사용자 텍스트 쿼리라는 세 가지 기능적 구성 요소 전반의 균형 잡힌 어텐션 분포를 방해하는 보편적인 백도어 지문인 '어텐션 할당 편차(attention allocation divergence)'를 발견했다. 이러한 통찰에 기반하여, 우리는 백도어 샘플을 필터링하는 비지도 방어 프레임워크인 3요소 어텐션 프로파일링(TCAP)을 제안한다. TCAP는 교차 모달 어텐션 맵을 세 가지 구성 요소로 분해하고, 가우시안 혼합 모델(GMM) 통계 프로파일링을 통해 트리거에 반응하는 어텐션 헤드를 식별하며, EM 기반 투표 집계를 통해 오염된 샘플을 분리해낸다. 다양한 MLLM 아키텍처와 공격 기법에 걸친 광범위한 실험을 통해 TCAP가 일관되게 우수한 성능을 달성함을 입증하였으며, MLLM을 위한 견고하고 실용적인 백도어 방어 기술로서의 입지를 확립하였다.
Fine-Tuning-as-a-Service (FTaaS) facilitates the customization of Multimodal Large Language Models (MLLMs) but introduces critical backdoor risks via poisoned data. Existing defenses either rely on supervised signals or fail to generalize across diverse trigger types and modalities. In this work, we uncover a universal backdoor fingerprint-attention allocation divergence-where poisoned samples disrupt the balanced attention distribution across three functional components: system instructions, vision inputs, and user textual queries, regardless of trigger morphology. Motivated by this insight, we propose Tri-Component Attention Profiling (TCAP), an unsupervised defense framework to filter backdoor samples. TCAP decomposes cross-modal attention maps into the three components, identifies trigger-responsive attention heads via Gaussian Mixture Model (GMM) statistical profiling, and isolates poisoned samples through EM-based vote aggregation. Extensive experiments across diverse MLLM architectures and attack methods demonstrate that TCAP achieves consistently strong performance, establishing it as a robust and practical backdoor defense in MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.