컨텍스트 무시적이고 인지 불가능한 오디오 프롬프트 주입을 통한 대규모 오디오-언어 모델 공격
Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection
최신 대규모 오디오-언어 모델(LALM)은 오디오와 텍스트를 긴밀하게 통합하여 지능적인 음성 상호 작용을 지원합니다. 그러나 이러한 통합은 공격 표면을 텍스트 영역을 넘어 확장하고, 연속적인 고차원 오디오 채널에 취약점을 발생시킵니다. 기존 연구에서 오디오 기반 공격(jailbreak)을 다루었지만, 악의적인 오디오 주입 및 후속 행동 조작에 대한 보안 위험은 아직 충분히 연구되지 않았습니다. 본 연구에서는 오디오 데이터만 접근 가능하고 강력한 인지적 은폐 기능을 갖춘 현실적인 제약 조건 하에서, 이전에 간과되었던 위협인 '오디오 프롬프트 주입'을 밝혀냅니다. 이 위협을 체계적으로 분석하기 위해, 본 연구에서는 LALM을 공격하는 데 사용되는 컨텍스트 무시적이고 인지 불가능한 적대적 오디오를 생성하는 일반적인 프레임워크인 extit{AudioHijack}을 제안합니다. extit{AudioHijack}은 다양한 모델에 대한 엔드투엔드 최적화를 위해 샘플링 기반 그래디언트 추정 방법을 사용하며, 비미분적인 오디오 토큰화를 우회합니다. 어텐션 지도 및 다중 컨텍스트 학습을 통해 모델의 어텐션을 적대적 오디오로 유도하고, 새로운 사용자 컨텍스트로의 일반화 성능을 향상시킵니다. 또한, 적대적 왜곡을 자연스러운 잔향으로 변조하는 컨볼루션 블렌딩 방법을 설계하여 사용자가 인지하기 어렵게 만듭니다. 13개의 최첨단 LALM에 대한 광범위한 실험 결과, 6가지의 오작동 유형에서 79%에서 96%의 평균 성공률을 보이며, 이는 새로운 사용자 컨텍스트에서 일관된 공격 성공을 나타냅니다. 실제 연구를 통해 Mistral AI 및 Microsoft Azure의 상용 음성 에이전트가 사용자의 허가 없이 승인되지 않은 작업을 수행하도록 유도할 수 있음을 확인했습니다. 이러한 결과는 LALM의 중요한 취약점을 드러내며, 이에 대한 전용 방어 기술 개발의 시급성을 강조합니다.
Modern Large audio-language models (LALMs) power intelligent voice interactions by tightly integrating audio and text. This integration, however, expands the attack surface beyond text and introduces vulnerabilities in the continuous, high-dimensional audio channel. While prior work studied audio jailbreaks, the security risks of malicious audio injection and downstream behavior manipulation remain underexamined. In this work, we reveal a previously overlooked threat, auditory prompt injection, under realistic constraints of audio data-only access and strong perceptual stealth. To systematically analyze this threat, we propose \textit{AudioHijack}, a general framework that generates context-agnostic and imperceptible adversarial audio to hijack LALMs. \textit{AudioHijack} employs sampling-based gradient estimation for end-to-end optimization across diverse models, bypassing non-differentiable audio tokenization. Through attention supervision and multi-context training, it steers model attention toward adversarial audio and generalizes to unseen user contexts. We also design a convolutional blending method that modulates perturbations into natural reverberation, making them highly imperceptible to users. Extensive experiments on 13 state-of-the-art LALMs show consistent hijacking across 6 misbehavior categories, achieving average success rates of 79\%-96\% on unseen user contexts with high acoustic fidelity. Real-world studies demonstrate that commercial voice agents from Mistral AI and Microsoft Azure can be induced to execute unauthorized actions on behalf of users. These findings expose critical vulnerabilities in LALMs and highlight the urgent need for dedicated defense.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.