Stream-Voice-Anon: 신경 오디오 코덱과 언어 모델을 활용한 실시간 화자 익명화의 유용성 향상
Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization via Neural Audio Codec and Language Models
온라인 음성 애플리케이션에서 화자 신원 보호는 매우 중요하지만, 스트리밍 화자 익명화(SA)에 관한 연구는 아직 미비한 실정입니다. 최근 연구들은 신경 오디오 코덱(NAC)이 우수한 화자 특징 분리 능력과 언어적 충실도를 제공함을 입증했습니다. 또한 NAC는 인과적 언어 모델(LM)과 결합하여 스트리밍 작업의 언어적 충실도를 높이고 프롬프트 제어를 강화할 수 있습니다. 그러나 기존의 NAC 기반 온라인 LM 시스템들은 익명화가 아닌 음성 변환(VC)을 위해 설계되어 프라이버시 보호에 필요한 기술이 결여되어 있습니다. 이러한 발전된 기술들을 바탕으로, 우리는 익명화 기법을 통합하여 최신 인과적 LM 기반 NAC 아키텍처를 스트리밍 SA에 특화되도록 조정한 Stream-Voice-Anon을 제안합니다. 우리의 익명화 방식은 양자화된 콘텐츠 코드의 분리 특성을 활용하여 화자 정보 유출을 방지하며, 이를 위해 의사 화자(pseudo-speaker) 표현 샘플링, 화자 임베딩 혼합, 그리고 LM 컨디셔닝을 위한 다양한 프롬프트 선택 전략을 포함합니다. 추가로, 실시간 환경에서의 지연 시간과 프라이버시 간의 상충 관계를 분석하기 위해 동적 및 고정 지연 설정을 비교합니다. VoicePrivacy 2024 챌린지 프로토콜 하에서 평가한 결과, Stream-Voice-Anon은 기존의 최신 스트리밍 방식인 DarkStream과 비교하여 유사한 지연 시간(180ms 대 200ms)과 Lazy-informed 공격자에 대한 프라이버시 보호 성능을 유지하면서도, 명료도(상대적 WER 최대 46% 감소)와 감정 보존(상대적 UAR 최대 28% 향상) 측면에서 상당한 성능 향상을 달성했습니다. 다만, Semi-informed 공격자에 대해서는 15%의 상대적 성능 저하를 보였습니다.
Protecting speaker identity is crucial for online voice applications, yet streaming speaker anonymization (SA) remains underexplored. Recent research has demonstrated that neural audio codec (NAC) provides superior speaker feature disentanglement and linguistic fidelity. NAC can also be used with causal language models (LM) to enhance linguistic fidelity and prompt control for streaming tasks. However, existing NAC-based online LM systems are designed for voice conversion (VC) rather than anonymization, lacking the techniques required for privacy protection. Building on these advances, we present Stream-Voice-Anon, which adapts modern causal LM-based NAC architectures specifically for streaming SA by integrating anonymization techniques. Our anonymization approach incorporates pseudo-speaker representation sampling, a speaker embedding mixing and diverse prompt selection strategies for LM conditioning that leverage the disentanglement properties of quantized content codes to prevent speaker information leakage. Additionally, we compare dynamic and fixed delay configurations to explore latency-privacy trade-offs in real-time scenarios. Under the VoicePrivacy 2024 Challenge protocol, Stream-Voice-Anon achieves substantial improvements in intelligibility (up to 46% relative WER reduction) and emotion preservation (up to 28% UAR relative) compared to the previous state-of-the-art streaming method DarkStream while maintaining comparable latency (180ms vs 200ms) and privacy protection against lazy-informed attackers, though showing 15% relative degradation against semi-informed attackers.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.