사전 기반 개념 제어를 통한 다중 모드 대규모 언어 모델의 안전성 강화
Dictionary-Aligned Concept Control for Safeguarding Multimodal LLMs
다중 모드 대규모 언어 모델(MLLM)은 악의적인 질문에 취약하여 부적절한 응답을 생성할 수 있음이 밝혀졌습니다. 최근 연구에서는 프롬프트 엔지니어링, 응답 분류 또는 미세 조정 기법을 사용하여 MLLM의 안전성을 향상시키려 노력하고 있습니다. 그러나 이러한 접근 방식은 종종 진화하는 악의적인 패턴에 효과적이지 않거나, 질문을 다시 실행해야 하거나, 많은 계산 자원을 필요로 하는 경우가 있습니다. 최근에는 추론 시에 동결된 모델의 활성화를 제어하는 방식이 유연하고 효과적인 해결책으로 부상했습니다. 그러나 기존의 MLLM 제어 방법은 일반적으로 안전과 관련된 제한된 개념 세트만 처리하거나, 다른 개념에 영향을 주지 않고 특정 개념을 조정하는 데 어려움을 겪습니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 사전 기반 개념 제어(Dictionary-Aligned Concept Control, DACO)라는 프레임워크를 제안합니다. DACO는 큐레이션된 개념 사전과 희소 자동인코더(Sparse Autoencoder, SAE)를 사용하여 MLLM의 활성화를 세밀하게 제어합니다. 첫째, 400,000개 이상의 이미지-캡션 데이터를 검색하고, 이 데이터들의 활성화를 요약하여 15,000개의 다중 모드 개념으로 구성된 사전을 구축했습니다. 이 데이터셋을 DACO-400K라고 명명했습니다. 둘째, 구축된 사전을 사용하여 희소 코딩을 통해 활성화를 제어할 수 있음을 보였습니다. 셋째, 제안된 제어 방식을 통해 SAE의 학습을 초기화하고, SAE의 원자(atom)의 의미를 자동으로 주석 처리하여 MLLM의 안전성을 강화합니다. 여러 MLLM(예: QwenVL, LLaVA, InternVL)에 대한 안전성 벤치마크(예: MM-SafetyBench, JailBreakV) 실험 결과, DACO는 MLLM의 안전성을 크게 향상시키면서도 일반적인 기능을 유지하는 것으로 나타났습니다.
Multimodal Large Language Models (MLLMs) have been shown to be vulnerable to malicious queries that can elicit unsafe responses. Recent work uses prompt engineering, response classification, or finetuning to improve MLLM safety. Nevertheless, such approaches are often ineffective against evolving malicious patterns, may require rerunning the query, or demand heavy computational resources. Steering the activations of a frozen model at inference time has recently emerged as a flexible and effective solution. However, existing steering methods for MLLMs typically handle only a narrow set of safety-related concepts or struggle to adjust specific concepts without affecting others. To address these challenges, we introduce Dictionary-Aligned Concept Control (DACO), a framework that utilizes a curated concept dictionary and a Sparse Autoencoder (SAE) to provide granular control over MLLM activations. First, we curate a dictionary of 15,000 multimodal concepts by retrieving over 400,000 caption-image stimuli and summarizing their activations into concept directions. We name the dataset DACO-400K. Second, we show that the curated dictionary can be used to intervene activations via sparse coding. Third, we propose a new steering approach that uses our dictionary to initialize the training of an SAE and automatically annotate the semantics of the SAE atoms for safeguarding MLLMs. Experiments on multiple MLLMs (e.g., QwenVL, LLaVA, InternVL) across safety benchmarks (e.g., MM-SafetyBench, JailBreakV) show that DACO significantly improves MLLM safety while maintaining general-purpose capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.