StreamVoiceAnon+: 프레임 레벨 음향 증류를 통한 감정 보존형 스트리밍 화자 익명화
StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation
본 연구에서는 스트리밍 화자 익명화(SA) 과정에서 감정 정보를 유지하는 문제를 해결하고자 합니다. 오디오 연속 생성을 위해 훈련된 신경망 기반 오디오 코덱 언어 모델은 종종 원본 감정을 저하시킵니다. 콘텐츠 토큰은 감정 정보를 제거하고, 모델은 주로 지배적인 음향 패턴에 의존하여 비언어적 특징을 보존하지 못합니다. 우리는 동일 화자의 중립적인 발화 쌍을 활용한 지도 학습 미세 조정과 함께, 음향 토큰의 숨겨진 상태에 대한 프레임 레벨 감정 증류를 제안합니다. 모든 수정 사항은 미세 조정에 국한되며, 4개의 GPU를 사용하여 2시간 이내에 완료되며, 추론 지연 시간이 거의 없습니다 (경쟁력 있는 180ms 스트리밍 지연 시간 유지). VoicePrivacy 2024 프로토콜에서, 제안하는 방법은 5.77%의 단어 오류율(WER)을 유지하면서 49.2%의 UAR(감정 보존율)을 달성하여, 기준 모델(39.7%) 대비 24% 상대적 성능 향상 및 감정 프롬프트 변형 모델(44.6% UAR) 대비 10% 성능 향상을 보입니다. 또한, 강력한 개인 정보 보호(EER 49.0%)를 유지합니다. 데모 및 코드는 다음 링크에서 확인 가능합니다: https://anonymous3842031239.github.io/
We address the challenge of preserving emotional content in streaming speaker anonymization (SA). Neural audio codec language models trained for audio continuation tend to degrade source emotion: content tokens discard emotional information, and the model defaults to dominant acoustic patterns rather than preserving paralinguistic attributes. We propose supervised finetuning with neutral-emotion utterance pairs from the same speaker, combined with frame-level emotion distillation on acoustic token hidden states. All modifications are confined to finetuning, which takes less than 2 hours on 4 GPUs and adds zero inference latency overhead, while maintaining a competitive 180ms streaming latency. On the VoicePrivacy 2024 protocol, our approach achieves a 49.2% UAR (emotion preservation) with 5.77% WER (intelligibility), a +24% relative UAR improvement over the baseline (39.7%->49.2%) and +10% over the emotion-prompt variant (44.6% UAR), while maintaining strong privacy (EER 49.0%). Demo and code are available: https://anonymous3842031239.github.io/
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.