위험 인식 주입: 효용성 저하 없는 안전성을 위한 시각-언어 모델 교정
Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility
시각-언어 모델(VLM)은 대규모 언어 모델(LLM)의 추론 능력을 크로스 모달 환경으로 확장하지만, 멀티모달 탈옥 공격에는 여전히 매우 취약하다. 기존의 방어책들은 주로 안전 미세 조정이나 공격적인 토큰 조작에 의존하여 막대한 학습 비용을 발생시키거나 효용성을 크게 저하시킨다. 최근 연구에 따르면 LLM은 텍스트 내의 유해 콘텐츠를 내재적으로 인식하지만, VLM에 시각적 입력이 통합되면서 위험 관련 신호가 빈번하게 희석되는 것으로 나타났다. 이에 착안하여, 본 연구는 VLM 내의 유해 신호를 증폭시켜 LLM 수준의 위험 인식 능력을 복원하는 경량화된 비학습 안전 교정 프레임워크인 '위험 인식 주입(RAI)'을 제안한다. 구체적으로 RAI는 언어 임베딩으로부터 '유해 프로토타입 부분공간'을 구축하고 선별된 고위험 시각 토큰에 대해 표적 변조를 수행하여, 크로스 모달 특징 공간 내에서 안전 관련 중요 신호를 명시적으로 활성화한다. 이러한 변조는 크로스 모달 추론을 위한 원본 토큰의 의미론적 무결성을 보존하면서도, 시각적 입력에서 유해 콘텐츠를 탐지하는 모델의 능력을 복원한다. 다수의 탈옥 및 효용성 벤치마크에 걸친 광범위한 실험을 통해, RAI가 작업 성능을 훼손하지 않으면서 공격 성공률을 상당히 감소시킨다는 것을 입증한다.
Vision language models (VLMs) extend the reasoning capabilities of large language models (LLMs) to cross-modal settings, yet remain highly vulnerable to multimodal jailbreak attacks. Existing defenses predominantly rely on safety fine-tuning or aggressive token manipulations, incurring substantial training costs or significantly degrading utility. Recent research shows that LLMs inherently recognize unsafe content in text, and the incorporation of visual inputs in VLMs frequently dilutes risk-related signals. Motivated by this, we propose Risk Awareness Injection (RAI), a lightweight and training-free framework for safety calibration that restores LLM-like risk recognition by amplifying unsafe signals in VLMs. Specifically, RAI constructs an Unsafe Prototype Subspace from language embeddings and performs targeted modulation on selected high-risk visual tokens, explicitly activating safety-critical signals within the cross-modal feature space. This modulation restores the model's LLM-like ability to detect unsafe content from visual inputs, while preserving the semantic integrity of original tokens for cross-modal reasoning. Extensive experiments across multiple jailbreak and utility benchmarks demonstrate that RAI substantially reduces attack success rate without compromising task performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.