2602.10161v1 Feb 10, 2026 cs.CR

교차 모달 충돌 환경에서의 전방위 안전: 취약점, 작동 메커니즘 및 효율적인 정렬

Omni-Safety under Cross-Modality Conflict: Vulnerabilities, Dynamics Mechanisms and Efficient Alignment

Qiankun Li
Qiankun Li
Citations: 100
h-index: 3
Zhongxiang Sun
Zhongxiang Sun
Citations: 2
h-index: 1
Kun Yang
Kun Yang
Citations: 0
h-index: 0
Yang Liu
Yang Liu
Citations: 139
h-index: 5
Zhe-Xu Zhou
Zhe-Xu Zhou
Citations: 14
h-index: 2
Yitong Zhang
Yitong Zhang
Citations: 2
h-index: 1
Kun Wang
Kun Wang
Citations: 154
h-index: 6
Zherui Li
Zherui Li
Citations: 114
h-index: 4
Yan Mi
Yan Mi
Citations: 4
h-index: 1
Yiming Zhang
Yiming Zhang
Citations: 2
h-index: 1
Junhao Dong
Junhao Dong
Citations: 0
h-index: 0

옴니모달 대규모 언어 모델(OLLM)은 LLM의 다중 모드 기능을 크게 확장하지만, 동시에 교차 모달 안전 문제를 야기합니다. 그러나 옴니모달 상호 작용에서의 취약점에 대한 체계적인 이해는 아직 부족합니다. 이러한 격차를 해소하기 위해, 우리는 모달-의미 분리 원리를 확립하고 AdvBench-Omni 데이터 세트를 구축하여 OLLM의 상당한 취약점을 밝혀냈습니다. 메커니즘 분석 결과, 거부 벡터 크기 감소에 의해 발생하는 미드 레이어 해체 현상과 함께, 모달에 불변하는 순수한 거부 방향이 존재한다는 것을 확인했습니다. 이러한 통찰력을 바탕으로, 특이값 분해를 사용하여 이상적인 거부 벡터를 추출하고, 가벼운 어댑터를 사용하여 개입 강도를 적응적으로 조절하는 OmniSteer를 제안합니다. 광범위한 실험 결과, 제안된 방법은 유해한 입력에 대한 거부 성공률을 69.9%에서 91.2%로 향상시킬 뿐만 아니라, 모든 모드에서의 일반적인 기능을 효과적으로 유지하는 것으로 나타났습니다. 관련 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/zhrli324/omni-safety-research.

Original Abstract

Omni-modal Large Language Models (OLLMs) greatly expand LLMs' multimodal capabilities but also introduce cross-modal safety risks. However, a systematic understanding of vulnerabilities in omni-modal interactions remains lacking. To bridge this gap, we establish a modality-semantics decoupling principle and construct the AdvBench-Omni dataset, which reveals a significant vulnerability in OLLMs. Mechanistic analysis uncovers a Mid-layer Dissolution phenomenon driven by refusal vector magnitude shrinkage, alongside the existence of a modal-invariant pure refusal direction. Inspired by these insights, we extract a golden refusal vector using Singular Value Decomposition and propose OmniSteer, which utilizes lightweight adapters to modulate intervention intensity adaptively. Extensive experiments show that our method not only increases the Refusal Success Rate against harmful inputs from 69.9% to 91.2%, but also effectively preserves the general capabilities across all modalities. Our code is available at: https://github.com/zhrli324/omni-safety-research.

0 Citations
0 Influential
28.493061443341 Altmetric
142.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!