ProjLens: 다중 모드 모델 안전성에서 프로젝터의 역할을 밝히다
ProjLens: Unveiling the Role of Projectors in Multimodal Model Safety
다중 모드 대규모 언어 모델(MLLM)은 교차 모드 이해 및 생성에서 놀라운 성공을 거두었지만, 중요한 안전 취약점으로 인해 실제 적용에 어려움을 겪고 있습니다. 기존 연구에서는 미세 조정 데이터 오염을 통해 추론을 조작하여 MLLM에 백도어를 삽입하는 것이 가능하다는 것이 입증되었지만, 백도어 공격의 근본적인 메커니즘은 여전히 불투명하여 이해와 완화를 어렵게 만듭니다. 이러한 격차를 해소하기 위해, MLLM의 백도어를 이해하기 위한 해석 프레임워크인 ProjLens를 제안합니다. 먼저, 일반적인 다운스트림 작업 정렬이 프로젝터 미세 조정에 국한되더라도 백도어 삽입에 취약점을 유발하며, 이는 텍스트 전용 LLM에서 관찰되는 것과 다른 활성화 메커니즘을 갖는다는 것을 확인했습니다. 네 가지 백도어 변형에 대한 광범위한 실험을 통해 다음을 밝혀냈습니다. (1) 저차원 구조: 백도어 삽입 업데이트는 전체적으로 완전한 차원을 가지며, 전용 '트리거 뉴런'이 부족하지만, 백도어에 중요한 파라미터는 프로젝터의 저차원 부분 공간에 인코딩되어 있습니다. (2) 활성화 메커니즘: 깨끗한 임베딩과 오염된 임베딩 모두 백도어 목표와 관련된 공유 방향으로 의미적 변화를 겪지만, 변화량은 입력 정규화 값에 따라 선형적으로 증가하므로, 오염된 샘플에서 뚜렷한 백도어 활성화를 유발합니다. 저희 코드: https://anonymous.4open.science/r/ProjLens-8FD7
Multimodal Large Language Models (MLLMs) have achieved remarkable success in cross-modal understanding and generation, yet their deployment is threatened by critical safety vulnerabilities. While prior works have demonstrated the feasibility of backdoors in MLLMs via fine-tuning data poisoning to manipulate inference, the underlying mechanisms of backdoor attacks remain opaque, complicating the understanding and mitigation. To bridge this gap, we propose ProjLens, an interpretability framework designed to demystify MLLMs backdoors. We first establish that normal downstream task alignment--even when restricted to projector fine--tuning--introduces vulnerability to backdoor injection, whose activation mechanism is different from that observed in text-only LLMs. Through extensive experiments across four backdoor variants, we uncover:(1) Low-Rank Structure: Backdoor injection updates appear overall full-rank and lack dedicated ``trigger neurons'', but the backdoor-critical parameters are encoded within a low-rank subspace of the projector;(2) Activation Mechanism: Both clean and poisoned embedding undergoes a semantic shift toward a shared direction aligned with the backdoor target, but the shifting magnitude scales linearly with the input norm, resulting in the distinct backdoor activation on poisoned samples. Our code is available at: https://anonymous.4open.science/r/ProjLens-8FD7
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.