개인 정보 보호를 위한 완전 양방향 음성 대화 모델
Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models
종단 간 완전 양방향 음성 모델은 사용자의 음성을 항상 켜진 LLM 백본을 통해 처리하지만, 이 모델의 숨겨진 표현이 가진 화자 정보 유출 가능성은 아직 검토되지 않았습니다. VoicePrivacy 2024 프로토콜을 따르고, 'lazy-informed' 공격자를 설정하여, SALM-Duplex와 Moshi 모델의 숨겨진 상태가 모든 트랜스포머 레이어에서 상당한 수준의 화자 정보를 유출한다는 것을 확인했습니다. 레이어별 및 턴별 분석 결과, 유출은 모든 레이어에서 지속되며, SALM-Duplex는 초기 레이어에서 더 강한 유출을 보이고, Moshi는 균일하게 유출되는 것으로 나타났습니다. 또한, 연관성(Linkability)은 초기 몇 번의 턴에서 급격히 증가합니다. 우리는 Stream-Voice-Anon을 사용하여 두 가지 스트리밍 익명화 방식을 제안합니다. 첫 번째 방식은 파형 수준의 전처리(Anon-W2W)이고, 두 번째 방식은 특징 영역에서의 대체(Anon-W2F)입니다. Anon-W2F는 기존 이산 인코더 기준보다 EER(Equal Error Rate)을 3.5배 이상 증가시켰으며(11.2%에서 41.0%로 증가), 무작위 추정의 50% 수준에 근접합니다. 반면, Anon-W2W는 기본 sBERT 성능의 78-93%를 유지하면서 1초 미만의 응답 지연 시간(FRL, 0.8초 미만)을 제공합니다.
End-to-end full-duplex speech models feed user audio through an always-on LLM backbone, yet the speaker privacy implications of their hidden representations remain unexamined. Following the VoicePrivacy 2024 protocol with a lazy-informed attacker, we show that the hidden states of SALM-Duplex and Moshi leak substantial speaker identity across all transformer layers. Layer-wise and turn-wise analyses reveal that leakage persists across all layers, with SALM-Duplex showing stronger leakage in early layers while Moshi leaks uniformly, and that Linkability rises sharply within the first few turns. We propose two streaming anonymization setups using Stream-Voice-Anon: a waveform-level front-end (Anon-W2W) and a feature-domain replacement (Anon-W2F). Anon-W2F raises EER by over 3.5x relative to the discrete encoder baseline (11.2% to 41.0%), approaching the 50% random-chance ceiling, while Anon-W2W retains 78-93% of baseline sBERT across setups with sub-second response latency (FRL under 0.8 s).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.