당신이 듣고 있나요: 대규모 오디오-언어 모델에 대한 오디오 내러티브 공격
Now You Hear Me: Audio Narrative Attacks Against Large Audio-Language Models
대규모 오디오-언어 모델은 점차 원시 음성 입력을 사용하여 음성 비서, 교육, 임상 분류 등 다양한 분야에서 더욱 원활한 통합을 가능하게 합니다. 그러나 이러한 전환은 아직 제대로 규명되지 않은 새로운 유형의 취약점을 야기합니다. 본 연구에서는 텍스트-오디오 변환 탈옥 공격을 설계하여 내러티브 스타일의 오디오 스트림 내에 금지된 지시 사항을 포함시켜, 이 모달리티 변화가 보안에 미치는 영향을 분석합니다. 공격은 고급 명령어 추종 텍스트 음성 변환(TTS) 모델을 활용하여 구조적 및 음향적 특성을 악용함으로써, 주로 텍스트에 맞춰 조정된 안전 장치를 우회합니다. 합성 음성을 통해 전달된 내러티브 형식은 최첨단 모델, 특히 Gemini 2.0 Flash에서 제한된 출력을 유발하며, 98.26%의 높은 성공률을 달성하여 텍스트만 사용한 기준 성능을 크게 능가합니다. 이러한 결과는 언어적 및 비언어적 표현을 함께 고려하는 안전 프레임워크의 필요성을 강조하며, 특히 음성 기반 인터페이스가 더욱 보편화됨에 따라 더욱 중요합니다.
Large audio-language models increasingly operate on raw speech inputs, enabling more seamless integration across domains such as voice assistants, education, and clinical triage. This transition, however, introduces a distinct class of vulnerabilities that remain largely uncharacterized. We examine the security implications of this modality shift by designing a text-to-audio jailbreak that embeds disallowed directives within a narrative-style audio stream. The attack leverages an advanced instruction-following text-to-speech (TTS) model to exploit structural and acoustic properties, thereby circumventing safety mechanisms primarily calibrated for text. When delivered through synthetic speech, the narrative format elicits restricted outputs from state-of-the-art models, including Gemini 2.0 Flash, achieving a 98.26% success rate that substantially exceeds text-only baselines. These results highlight the need for safety frameworks that jointly reason over linguistic and paralinguistic representations, particularly as speech-based interfaces become more prevalent.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.