위험 인지 주입: 안전성을 유지하면서 유용성을 저해하지 않는 비전-언어 모델의 안전성 향상
Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility
비전-언어 모델(VLMs)은 대규모 언어 모델(LLMs)의 추론 능력을 다중 모드 환경으로 확장하지만, 여전히 다중 모드 공격에 취약합니다. 기존의 방어 방법은 주로 안전성 미세 조정 또는 공격적인 토큰 조작에 의존하며, 이는 상당한 학습 비용을 발생시키거나 유용성을 크게 저하시킵니다. 최근 연구에 따르면, LLM은 본질적으로 텍스트 내의 위험한 콘텐츠를 인식하며, VLM에 시각적 입력이 포함되면 위험 관련 신호가 희석되는 경향이 있습니다. 이러한 점에 착안하여, 본 연구에서는 경량화되고 학습이 필요 없는 안전성 보정 프레임워크인 위험 인지 주입(RAI)을 제안합니다. RAI는 LLM과 유사한 위험 인식을 회복하기 위해 VLM 내의 위험 신호를 증폭합니다. 구체적으로, RAI는 언어 임베딩으로부터 위험 프로토타입 부분 공간을 구성하고, 선택된 고위험 시각적 토큰에 대한 표적 변조를 수행하여, 교차 모드 특징 공간 내에서 안전과 관련된 중요한 신호를 명시적으로 활성화합니다. 이러한 변조는 모델이 시각적 입력으로부터 위험한 콘텐츠를 감지하는 LLM과 유사한 능력을 회복하도록 하며, 동시에 교차 모드 추론을 위한 원래 토큰의 의미적 완전성을 유지합니다. 다양한 공격 및 유용성 벤치마크에 대한 광범위한 실험 결과, RAI는 작업 성능을 저해하지 않으면서 공격 성공률을 크게 감소시키는 것으로 나타났습니다.
Vision language models (VLMs) extend the reasoning capabilities of large language models (LLMs) to cross-modal settings, yet remain highly vulnerable to multimodal jailbreak attacks. Existing defenses predominantly rely on safety fine-tuning or aggressive token manipulations, incurring substantial training costs or significantly degrading utility. Recent research shows that LLMs inherently recognize unsafe content in text, and the incorporation of visual inputs in VLMs frequently dilutes risk-related signals. Motivated by this, we propose Risk Awareness Injection (RAI), a lightweight and training-free framework for safety calibration that restores LLM-like risk recognition by amplifying unsafe signals in VLMs. Specifically, RAI constructs an Unsafe Prototype Subspace from language embeddings and performs targeted modulation on selected high-risk visual tokens, explicitly activating safety-critical signals within the cross-modal feature space. This modulation restores the model's LLM-like ability to detect unsafe content from visual inputs, while preserving the semantic integrity of original tokens for cross-modal reasoning. Extensive experiments across multiple jailbreak and utility benchmarks demonstrate that RAI substantially reduces attack success rate without compromising task performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.