AudioGuard: 다양한 위협 모델에 대한 포괄적인 오디오 안전 보호를 향하여
AudioGuard: Toward Comprehensive Audio Safety Protection Across Diverse Threat Models
오디오는 최근 파운데이션 모델의 주요 인터페이스로 빠르게 자리 잡으며, 실시간 음성 비서 기능을 제공합니다. 오디오 시스템의 안전성을 확보하는 것은 단순히 "불쾌한 텍스트를 소리 내어 읽는 것" 이상으로 복잡합니다. 실제 위험은 오디오 자체의 유해한 소리 이벤트, 화자 속성(예: 어린이 목소리), 사칭/음성 복제 남용, 그리고 어린이 목소리와 같은 음성 콘텐츠의 결합으로 인한 피해와 같은 고유한 위험에 기인할 수 있습니다. 오디오의 특성상 이러한 고유한 위험 환경에 대한 포괄적인 벤치마크나 안전 장치를 개발하는 것은 매우 어렵습니다. 이러한 격차를 해소하기 위해, 저희는 오디오 시스템에 대한 대규모 적대적 공격을 수행하고, 오디오의 취약점을 체계적으로 분석하며, 포괄적이고 정책 기반의 오디오 위험 분류 체계인 AudioRisk Taxonomy와 다양한 위협 모델을 포괄하는 최초의 정책 기반 오디오 안전 벤치마크인 AudioSafetyBench를 개발했습니다. AudioSafetyBench는 다양한 언어, 의심스러운 음성(예: 유명인/사칭 및 어린이 목소리), 위험한 음성 콘텐츠 조합, 그리고 비음성 소리 이벤트를 지원합니다. 이러한 위협에 대응하기 위해, 저희는 1) 웨이브폼 수준의 오디오 자체 감지를 위한 SoundGuard와 2) 정책 기반의 의미론적 보호를 위한 ContentGuard로 구성된 통합 안전 장치인 AudioGuard를 제안합니다. AudioSafetyBench 및 네 가지 상호 보완적인 벤치마크에 대한 광범위한 실험 결과, AudioGuard는 강력한 오디오-LLM 기반의 기본 모델보다 일관되게 더 높은 정확도를 제공하며, 지연 시간은 현저히 낮습니다.
Audio has rapidly become a primary interface for foundation models, powering real-time voice assistants. Ensuring safety in audio systems is inherently more complex than just "unsafe text spoken aloud": real-world risks can hinge on audio-native harmful sound events, speaker attributes (e.g., child voice), impersonation/voice-cloning misuse, and voice-content compositional harms, such as child voice plus sexual content. The nature of audio makes it challenging to develop comprehensive benchmarks or guardrails against this unique risk landscape. To close this gap, we conduct large-scale red teaming on audio systems, systematically uncover vulnerabilities in audio, and develop a comprehensive, policy-grounded audio risk taxonomy and AudioSafetyBench, the first policy-based audio safety benchmark across diverse threat models. AudioSafetyBench supports diverse languages, suspicious voices (e.g., celebrity/impersonation and child voice), risky voice-content combinations, and non-speech sound events. To defend against these threats, we propose AudioGuard, a unified guardrail consisting of 1) SoundGuard for waveform-level audio-native detection and 2) ContentGuard for policy-grounded semantic protection. Extensive experiments on AudioSafetyBench and four complementary benchmarks show that AudioGuard consistently improves guardrail accuracy over strong audio-LLM-based baselines with substantially lower latency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.