음성 반탐지 모델의 확률적 검증
Probabilistic Verification of Voice Anti-Spoofing Models
최근 생성 모델의 발전은 음성 합성 기술의 악의적인 오용 위험을 증폭시켜, 공격자가 특정 사용자를 모방하고 민감한 자원에 접근할 수 있도록 합니다. 음성 위조 탐지 기술이 빠르게 발전하고 있지만, 대부분의 기존 대응책은 형식적인 안정성 보장을 제공하지 않거나, 새로운 생성 기술에 대한 일반화 능력이 부족합니다. 본 연구에서는 음성 반탐지 모델(VASM)의 안정성을 검증하기 위한 확률적 프레임워크인 PV-VASM을 제안합니다. PV-VASM은 텍스트-음성 변환(TTS), 음성 복제(VC) 및 파라메트릭 신호 변환에 따른 오분류 확률을 추정합니다. 이 방법은 모델에 독립적이며, 새로운 음성 합성 기술 및 입력 변동에 대한 안정성 검증을 가능하게 합니다. 우리는 오분류 확률에 대한 이론적인 상한을 도출하고, 다양한 실험 환경에서 이 방법을 검증하여, 실용적인 안정성 검증 도구로서의 효능을 입증합니다.
Recent advances in generative models have amplified the risk of malicious misuse of speech synthesis technologies, enabling adversaries to impersonate target speakers and access sensitive resources. Although speech deepfake detection has progressed rapidly, most existing countermeasures lack formal robustness guarantees or fail to generalize to unseen generation techniques. We propose PV-VASM, a probabilistic framework for verifying the robustness of voice anti-spoofing models (VASMs). PV-VASM estimates the probability of misclassification under text-to-speech (TTS), voice cloning (VC), and parametric signal transformations. The approach is model-agnostic and enables robustness verification against unseen speech synthesis techniques and input perturbations. We derive a theoretical upper bound on the error probability and validate the method across diverse experimental settings, demonstrating its effectiveness as a practical robustness verification tool.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.