정렬의 저주: 오мни 모델에서의 다중 모달 악성 공격 전이
The Alignment Curse: Cross-Modality Jailbreak Transfer in Omni-Models
최근 엔드-투-엔드 학습된 오мни 모델의 발전은 다중 모달 이해 능력을 크게 향상시켰습니다. 동시에, 안전성 검증은 텍스트 영역을 넘어 음성 기반의 악성 공격까지 확대되었습니다. 그러나 텍스트 기반 및 음성 기반 악성 공격 간의 중요한 연관성은 아직 충분히 연구되지 않았습니다. 본 연구에서는 텍스트 기반 악성 공격을 음성으로 전이하는 다중 모달 전이 현상을 연구합니다. 이는 두 모달 간의 의미적 유사성과 텍스트 기반 악성 공격 방법론의 성숙도를 고려한 것입니다. 우리는 먼저 모달 정렬과 다중 모달 악성 공격 전이 간의 연관성을 분석하여, 강력한 정렬이 의도치 않게 텍스트 기반 취약점을 음성 모달로 전파시킬 수 있음을 보여줍니다. 이를 '정렬의 저주'라고 명명했습니다. 이러한 분석을 바탕으로, 최근 오мни 모델에 대해 텍스트 기반 악성 공격, 텍스트 전이 음성 악성 공격, 기존 음성 기반 악성 공격을 경험적으로 평가했습니다. 그 결과, 텍스트 전이 음성 악성 공격은 기존 음성 기반 악성 공격과 유사하거나 더 나은 성능을 보였으며, 이는 향후 음성 기반 안전성 검증을 위한 간단하면서도 강력한 기준점이 될 수 있음을 보여줍니다. 또한, 텍스트 전이 음성 공격은 다양한 모델에서 높은 전이 가능성을 보이며, 더욱 엄격한 음성 전용 접근 환경에서도 효과적임을 입증했습니다.
Recent advances in end-to-end trained omni-models have significantly improved multimodal understanding. At the same time, safety red-teaming has expanded beyond text to encompass audio-based jailbreak attacks. However, an important bridge between textual and audio jailbreaks remains underexplored. In this work, we study the cross-modality transfer of jailbreak attacks from text to audio, motivated by the semantic similarity between the two modalities and the maturity of textual jailbreak methods. We first analyze the connection between modality alignment and cross-modality jailbreak transfer, showing that strong alignment can inadvertently propagate textual vulnerabilities to the audio modality, which we term the alignment curse. Guided by this analysis, we conduct an empirical evaluation of textual jailbreaks, text-transferred audio jailbreaks, and existing audio-based jailbreaks on recent omni-models. Our results show that text-transferred audio jailbreaks perform comparably to, and often better than, audio-based jailbreaks, establishing them as simple yet powerful baselines for future audio red-teaming. We further demonstrate strong cross-model transferability and show that text-transferred audio attacks remain effective even under a stricter audio-only access threat model.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.