2603.09706v1 Mar 10, 2026 cs.AI

OOD-MMSafe: 유해 의도에서 숨겨진 결과에 이르기까지, 멀티모달 대규모 언어 모델의 안전성을 향상시키기

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Xingjun Ma
Xingjun Ma
Citations: 2
h-index: 1
Kun Yang
Kun Yang
Citations: 0
h-index: 0
Ming Wen
Ming Wen
Citations: 39
h-index: 3
Jingyu Zhang
Jingyu Zhang
Citations: 0
h-index: 0
Yuxuan Liu
Yuxuan Liu
Citations: 118
h-index: 4
Shiwen Cui
Shiwen Cui
Citations: 46
h-index: 4
Shouling Ji
Shouling Ji
Citations: 14
h-index: 2

멀티모달 대규모 언어 모델(MLLM)의 안전 정렬은 중요한 관심사로 떠오르고 있지만, 현재의 패러다임은 주로 악의적인 의도나 상황 위반에 초점을 맞추고 있습니다. 우리는 안전의 경계를 결과 중심의 안전으로 확장하는 것을 제안하는데, 이는 자율적이고 구체화된 에이전트의 안정적인 배포에 필수적인 패러다임입니다. 이러한 변화를 공식화하기 위해, 우리는 455개의 큐레이션된 쿼리-이미지 쌍으로 구성된 벤치마크인 OOD-MMSafe를 소개합니다. 이 벤치마크는 모델이 맥락 의존적인 인과 관계 내에서 잠재적인 위험을 식별하는 능력을 평가하도록 설계되었습니다. 우리의 분석 결과, 최첨단 모델에서 광범위한 인과적 무지가 나타나는 것을 확인했으며, 특히 고용량의 비공개 모델에서 67.5%의 높은 실패율을 보였습니다. 또한, 모델의 용량이 증가함에 따라 정적 정렬은 형식 중심적인 실패를 초래하며, 안전 추론 능력이 향상되는 것이 아니라 오히려 정체되는 경향이 있음을 확인했습니다. 이러한 문제점을 해결하기 위해, 우리는 모델의 고유한 추론을 토큰 수준의 자기 증류 보상의 동적 참조로 통합하는 Consequence-Aware Safety Policy Optimization (CASPO) 프레임워크를 개발했습니다. 실험 결과, CASPO는 결과 예측 능력을 크게 향상시켜 Qwen2.5-VL-7B 모델의 위험 식별 실패율을 7.3%, Qwen3-VL-4B 모델의 실패율을 5.7%로 감소시키면서 전체적인 성능을 유지하는 것을 보여주었습니다.

Original Abstract

While safety alignment for Multimodal Large Language Models (MLLMs) has gained significant attention, current paradigms primarily target malicious intent or situational violations. We propose shifting the safety frontier toward consequence-driven safety, a paradigm essential for the robust deployment of autonomous and embodied agents. To formalize this shift, we introduce OOD-MMSafe, a benchmark comprising 455 curated query-image pairs designed to evaluate a model's ability to identify latent hazards within context-dependent causal chains. Our analysis reveals a pervasive causal blindness among frontier models, with the highest 67.5% failure rate in high-capacity closed-source models, and identifies a preference ceiling where static alignment yields format-centric failures rather than improved safety reasoning as model capacity grows. To address these bottlenecks, we develop the Consequence-Aware Safety Policy Optimization (CASPO) framework, which integrates the model's intrinsic reasoning as a dynamic reference for token-level self-distillation rewards. Experimental results demonstrate that CASPO significantly enhances consequence projection, reducing the failure ratio of risk identification to 7.3% for Qwen2.5-VL-7B and 5.7% for Qwen3-VL-4B while maintaining overall effectiveness.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!