인과 관계 추론 및 양방향 안전 서브스페이스 투영을 통한 비전-언어 모델의 위험 채널 진단 및 수정
Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection
대규모 비전-언어 모델(LVLM)은 다양한 다중 모드 이해 및 추론 작업에서 뛰어난 성능을 보이지만, 내부 안전 메커니즘은 여전히 불투명하며 제어가 미흡합니다. 본 연구에서는 LVLM 내의 위험 채널을 진단하고 수정하는 포괄적인 프레임워크(CARE)를 제시합니다. 먼저, 인과 매개 분석을 수행하여 안전하지 않은 행동에 인과적으로 관련된 뉴런과 레이어를 식별합니다. 이러한 결과를 바탕으로, 양방향 안전 서브스페이스 투영 방법을 도입합니다. 이 방법은 양호한 활성화와 악의적인 활성화 간의 일반화된 고유값 분해를 통해 시각 및 텍스트 모드 모두에 대한 일반화된 안전 서브스페이스를 학습합니다. 추론 과정에서 활성화는 하이브리드 융합 메커니즘을 통해 이러한 안전 서브스페이스로 동적으로 투영되며, 이 메커니즘은 시각 및 텍스트 수정의 균형을 적응적으로 조절하여 안전하지 않은 특징을 효과적으로 억제하면서 의미적 충실도를 유지합니다. 다양한 안전 벤치마크에 대한 광범위한 실험 결과, 인과-서브스페이스 수정 프레임워크는 일반적인 다중 모드 기능 저하 없이 안전성 강건성을 크게 향상시키며, 기존의 활성화 조향 및 정렬 기반 방법보다 우수한 성능을 보입니다. 또한, 본 방법은 우수한 일반화 성능을 보여주어, 이전에 본 적 없는 공격에 대한 방어 능력을 갖추고 있습니다.
Large Vision-Language Models (LVLMs) have achieved impressive performance across multimodal understanding and reasoning tasks, yet their internal safety mechanisms remain opaque and poorly controlled. In this work, we present a comprehensive framework for diagnosing and repairing unsafe channels within LVLMs (CARE). We first perform causal mediation analysis to identify neurons and layers that are causally responsible for unsafe behaviors. Based on these findings, we introduce a dual-modal safety subspace projection method that learns generalized safety subspaces for both visual and textual modalities through generalized eigen-decomposition between benign and malicious activations. During inference, activations are dynamically projected toward these safety subspaces via a hybrid fusion mechanism that adaptively balances visual and textual corrections, effectively suppressing unsafe features while preserving semantic fidelity. Extensive experiments on multiple safety benchmarks demonstrate that our causal-subspace repair framework significantly enhances safety robustness without degrading general multimodal capabilities, outperforming prior activation steering and alignment-based baselines. Additionally, our method exhibits good transferability, defending against unseen attacks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.