사이렌의 속삭임: 음성 기반 LLM의 은밀한 초음파 탈출 시도
Sirens' Whisper: Inaudible Near-Ultrasonic Jailbreaks of Speech-Driven LLMs
음성 인터페이스를 통해 음성 기반 대규모 언어 모델(LLM)에 대한 접근성이 높아짐에 따라, 새로운 보안 위험이 개방형 음향 채널을 통해 발생하고 있습니다. 본 연구에서는 현실적인 블랙박스 환경에서, 일반적인 하드웨어를 사용하여 음성 기반 LLM에 대한 은밀한 프롬프트 기반 공격을 수행하는 최초의 실용적인 프레임워크인 Sirens' Whisper (SWhisper)를 제시합니다. SWhisper는 일반적인 장치에서 임의의 대상 베이스밴드 오디오(예: 길고 구조화된 프롬프트)를 견고하고 인지할 수 없는 초음파 파형으로 인코딩하여 전송함으로써, 음향 전송 및 마이크 비선형성의 영향을 정확하게 보정하여 작동합니다. 이는 장치 및 환경 전반의 비선형 채널 특성을 간단하면서도 효과적으로 모델링하고, 경량 채널 반전 사전 보정을 결합하여 달성됩니다. 이렇게 구축된 고정밀 은밀 통신 채널을 기반으로, 음성 인터페이스 환경에서 가청성, 간결성 및 전이성을 보장하는 음성 인식 탈출(jailbreak) 생성 방법을 설계했습니다. 상용 및 오픈 소스 음성 기반 LLM에 대한 실험 결과, SWhisper는 강력한 블랙박스 효과를 보였습니다. 상용 모델에서 SWhisper는 최대 0.94의 거부 회피율(NR)과 0.925의 특정 설득 성공률(SC)을 달성했습니다. 통제된 사용자 연구 결과, 주입된 탈출 오디오가 배경음만 재생하는 경우와 인간 청취자에게서 인지적으로 구별되지 않는다는 것을 확인했습니다. 탈출 시도는 예시 연구이지만, 근본적인 은밀 음향 채널은 고정밀 프롬프트 주입 및 명령 실행 공격을 포함한 더 광범위한 공격에 활용될 수 있습니다.
Speech-driven large language models (LLMs) are increasingly accessed through speech interfaces, introducing new security risks via open acoustic channels. We present Sirens' Whisper (SWhisper), the first practical framework for covert prompt-based attacks against speech-driven LLMs under realistic black-box conditions using commodity hardware. SWhisper enables robust, inaudible delivery of arbitrary target baseband audio-including long and structured prompts-on commodity devices by encoding it into near-ultrasound waveforms that demodulate faithfully after acoustic transmission and microphone nonlinearity. This is achieved through a simple yet effective approach to modeling nonlinear channel characteristics across devices and environments, combined with lightweight channel-inversion pre-compensation. Building on this high-fidelity covert channel, we design a voice-aware jailbreak generation method that ensures intelligibility, brevity, and transferability under speech-driven interfaces. Experiments across both commercial and open-source speech-driven LLMs demonstrate strong black-box effectiveness. On commercial models, SWhisper achieves up to 0.94 non-refusal (NR) and 0.925 specific-convincing (SC). A controlled user study further shows that the injected jailbreak audio is perceptually indistinguishable from background-only playback for human listeners. Although jailbreaks serve as a case study, the underlying covert acoustic channel enables a broader class of high-fidelity prompt-injection and commandexecution attacks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.