2603.08179v1 Mar 09, 2026 eess.AS

개인 정보 보호를 위한 완전 양방향 음성 대화 모델

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

N. Kuzmin
N. Kuzmin
Citations: 70
h-index: 3
Chng Eng Siong
Chng Eng Siong
Citations: 587
h-index: 13
Jiajun Deng
Jiajun Deng
Citations: 34
h-index: 3
Tao Zhong
Tao Zhong
Citations: 14
h-index: 2
Yingke Zhu
Yingke Zhu
Citations: 243
h-index: 8
Tristan Tsoi
Tristan Tsoi
Citations: 2
h-index: 1
Tianxiang Cao
Tianxiang Cao
Citations: 8
h-index: 2
Simon Lui
Simon Lui
Citations: 17
h-index: 2
Kong Aik Lee
Kong Aik Lee
Citations: 6
h-index: 1

종단 간 완전 양방향 음성 모델은 사용자의 음성을 항상 켜진 LLM 백본을 통해 처리하지만, 이 모델의 숨겨진 표현이 가진 화자 정보 유출 가능성은 아직 검토되지 않았습니다. VoicePrivacy 2024 프로토콜을 따르고, 'lazy-informed' 공격자를 설정하여, SALM-Duplex와 Moshi 모델의 숨겨진 상태가 모든 트랜스포머 레이어에서 상당한 수준의 화자 정보를 유출한다는 것을 확인했습니다. 레이어별 및 턴별 분석 결과, 유출은 모든 레이어에서 지속되며, SALM-Duplex는 초기 레이어에서 더 강한 유출을 보이고, Moshi는 균일하게 유출되는 것으로 나타났습니다. 또한, 연관성(Linkability)은 초기 몇 번의 턴에서 급격히 증가합니다. 우리는 Stream-Voice-Anon을 사용하여 두 가지 스트리밍 익명화 방식을 제안합니다. 첫 번째 방식은 파형 수준의 전처리(Anon-W2W)이고, 두 번째 방식은 특징 영역에서의 대체(Anon-W2F)입니다. Anon-W2F는 기존 이산 인코더 기준보다 EER(Equal Error Rate)을 3.5배 이상 증가시켰으며(11.2%에서 41.0%로 증가), 무작위 추정의 50% 수준에 근접합니다. 반면, Anon-W2W는 기본 sBERT 성능의 78-93%를 유지하면서 1초 미만의 응답 지연 시간(FRL, 0.8초 미만)을 제공합니다.

Original Abstract

End-to-end full-duplex speech models feed user audio through an always-on LLM backbone, yet the speaker privacy implications of their hidden representations remain unexamined. Following the VoicePrivacy 2024 protocol with a lazy-informed attacker, we show that the hidden states of SALM-Duplex and Moshi leak substantial speaker identity across all transformer layers. Layer-wise and turn-wise analyses reveal that leakage persists across all layers, with SALM-Duplex showing stronger leakage in early layers while Moshi leaks uniformly, and that Linkability rises sharply within the first few turns. We propose two streaming anonymization setups using Stream-Voice-Anon: a waveform-level front-end (Anon-W2W) and a feature-domain replacement (Anon-W2F). Anon-W2F raises EER by over 3.5x relative to the discrete encoder baseline (11.2% to 41.0%), approaching the 50% random-chance ceiling, while Anon-W2W retains 78-93% of baseline sBERT across setups with sub-second response latency (FRL under 0.8 s).

1 Citations
0 Influential
6.5 Altmetric
33.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!