DAST: 스테이지별 학습을 활용한 이중 스트림 음성 익명화 공격 모델
DAST: A Dual-Stream Voice Anonymization Attacker with Staged Training
음성 익명화는 음성 특징을 가려 언어적 내용을 보존하지만, 여전히 화자 특유의 패턴을 노출할 수 있습니다. 개인 정보 보호 평가를 개선하고 강화하기 위해, 본 연구에서는 스펙트럼 특징과 자기 지도 학습 특징을 병렬 인코더를 통해 결합하고, 세 단계의 학습 전략을 사용하는 이중 스트림 공격 모델을 제안합니다. 1단계에서는 기본적인 화자 식별 표현을 구축합니다. 2단계에서는 음성 변환과 익명화의 공유된 동일성 변환 특성을 활용하여 다양한 변환된 음성을 모델에 노출시켜, 시스템 간의 강건성을 확보합니다. 3단계에서는 대상 익명화 데이터에 대한 경량 적응을 제공합니다. VoicePrivacy Attacker Challenge (VPAC) 데이터셋에 대한 실험 결과는 2단계가 일반화 성능의 주요 요인임을 보여주며, 이를 통해 기존 익명화 데이터셋에서 강력한 공격 성능을 달성할 수 있습니다. 3단계를 함께 사용하면, 대상 익명화 데이터의 10%만을 사용하여 미세 조정하는 것만으로도 현재 최고 수준의 공격 모델보다 EER 측면에서 우수한 성능을 보입니다.
Voice anonymization masks vocal traits while preserving linguistic content, which may still leak speaker-specific patterns. To assess and strengthen privacy evaluation, we propose a dual-stream attacker that fuses spectral and self-supervised learning features via parallel encoders with a three-stage training strategy. Stage I establishes foundational speaker-discriminative representations. Stage II leverages the shared identity-transformation characteristics of voice conversion and anonymization, exposing the model to diverse converted speech to build cross-system robustness. Stage III provides lightweight adaptation to target anonymized data. Results on the VoicePrivacy Attacker Challenge (VPAC) dataset demonstrate that Stage II is the primary driver of generalization, enabling strong attacking performance on unseen anonymization datasets. With Stage III, fine-tuning on only 10\% of the target anonymization dataset surpasses current state-of-the-art attackers in terms of EER.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.