2603.07551v1 Mar 08, 2026 cs.SD

제로샷 텍스트 음성 변환 시스템에서의 표적 스피커 악성 공격 방지 프레임워크

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Sai Praneeth Karimireddy
Sai Praneeth Karimireddy
Citations: 11
h-index: 2
Thanapat Trachu
Thanapat Trachu
Citations: 11
h-index: 2
Thanathai Lertpetchpun
Thanathai Lertpetchpun
Citations: 38
h-index: 3
Shrikanth S. Narayanan
Shrikanth S. Narayanan
Citations: 215
h-index: 8

제로샷 텍스트 음성 변환(TTS) 기술은 특정 사용자의 음성을 복제할 수 있어 심각한 개인 정보 침해 위험을 초래하며, 따라서 학습된 TTS 모델에서 특정 스피커의 정보를 제거하는 것이 필요합니다. 기존의 머신 러닝 기반 제거 기술은 제로샷 TTS의 동적인 음성 복원 능력 때문에 충분하지 않습니다. 본 연구에서는 이 문제를 음성 생성 스피커 악성 공격 방지(SGSP) 문제로 정의하고, 특정 스피커의 음성 생성을 방지하면서 다른 스피커에 대한 성능은 유지하는 방식으로 학습된 모델을 수정하는 방법을 제안합니다. 1명, 15명, 100명으로 설정된 '잊혀진' 스피커에 대해 추론 시간 필터링 및 파라미터 수정 기반의 방법을 평가하고, 유틸리티(WER)와 개인 정보 보호 수준(AUC 및 잊혀진 스피커 유사성, FSSIM) 간의 균형을 통해 성능을 측정합니다. 15명까지는 강력한 개인 정보 보호를 달성했지만, 100명으로 늘릴 경우 스피커 식별 간의 중복 증가로 인해 확장성에 한계가 있음을 확인했습니다. 본 연구는 새로운 문제 정의 및 평가 프레임워크를 제시하여 생성형 음성 개인 정보 보호 분야의 발전을 위한 토대를 마련합니다.

Original Abstract

Zero-shot Text-to-Speech (TTS) voice cloning poses severe privacy risks, demanding the removal of specific speaker identities from trained TTS models. Conventional machine unlearning is insufficient in this context, as zero-shot TTS can dynamically reconstruct voices from just reference prompts. We formalize this task as Speech Generation Speaker Poisoning (SGSP), in which we modify trained models to prevent the generation of specific identities while preserving utility for other speakers. We evaluate inference-time filtering and parameter-modification baselines across 1, 15, and 100 forgotten speakers. Performance is assessed through the trade-off between utility (WER) and privacy, quantified using AUC and Forget Speaker Similarity (FSSIM). We achieve strong privacy for up to 15 speakers but reveal scalability limits at 100 speakers due to increased identity overlap. Our study thus introduces a novel problem and evaluation framework toward further advances in generative voice privacy.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!