2603.08179v1 Mar 09, 2026 eess.AS

개인 정보 보호를 위한 완전 양방향 음성 대화 모델

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

N. Kuzmin
N. Kuzmin
Citations: 55
h-index: 3
E. Chng
E. Chng
Citations: 1,898
h-index: 22
Jiajun Deng
Jiajun Deng
Citations: 24
h-index: 3
Tao Zhong
Tao Zhong
Citations: 10
h-index: 1
Yingke Zhu
Yingke Zhu
Citations: 224
h-index: 8
Tristan Tsoi
Tristan Tsoi
Citations: 1
h-index: 1
Tianxiang Cao
Tianxiang Cao
Citations: 6
h-index: 1
Simon Lui
Simon Lui
Citations: 8
h-index: 2
Kong Aik Lee
Kong Aik Lee
Citations: 4
h-index: 1

종단 간 완전 양방향 음성 모델은 사용자의 음성을 항상 켜진 LLM 백본을 통해 처리하지만, 이 모델의 숨겨진 표현이 가진 화자 정보 유출 가능성은 아직 검토되지 않았습니다. VoicePrivacy 2024 프로토콜을 따르고, 'lazy-informed' 공격자를 설정하여, SALM-Duplex와 Moshi 모델의 숨겨진 상태가 모든 트랜스포머 레이어에서 상당한 수준의 화자 정보를 유출한다는 것을 확인했습니다. 레이어별 및 턴별 분석 결과, 유출은 모든 레이어에서 지속되며, SALM-Duplex는 초기 레이어에서 더 강한 유출을 보이고, Moshi는 균일하게 유출되는 것으로 나타났습니다. 또한, 연관성(Linkability)은 초기 몇 번의 턴에서 급격히 증가합니다. 우리는 Stream-Voice-Anon을 사용하여 두 가지 스트리밍 익명화 방식을 제안합니다. 첫 번째 방식은 파형 수준의 전처리(Anon-W2W)이고, 두 번째 방식은 특징 영역에서의 대체(Anon-W2F)입니다. Anon-W2F는 기존 이산 인코더 기준보다 EER(Equal Error Rate)을 3.5배 이상 증가시켰으며(11.2%에서 41.0%로 증가), 무작위 추정의 50% 수준에 근접합니다. 반면, Anon-W2W는 기본 sBERT 성능의 78-93%를 유지하면서 1초 미만의 응답 지연 시간(FRL, 0.8초 미만)을 제공합니다.

Original Abstract

End-to-end full-duplex speech models feed user audio through an always-on LLM backbone, yet the speaker privacy implications of their hidden representations remain unexamined. Following the VoicePrivacy 2024 protocol with a lazy-informed attacker, we show that the hidden states of SALM-Duplex and Moshi leak substantial speaker identity across all transformer layers. Layer-wise and turn-wise analyses reveal that leakage persists across all layers, with SALM-Duplex showing stronger leakage in early layers while Moshi leaks uniformly, and that Linkability rises sharply within the first few turns. We propose two streaming anonymization setups using Stream-Voice-Anon: a waveform-level front-end (Anon-W2W) and a feature-domain replacement (Anon-W2F). Anon-W2F raises EER by over 3.5x relative to the discrete encoder baseline (11.2% to 41.0%), approaching the 50% random-chance ceiling, while Anon-W2W retains 78-93% of baseline sBERT across setups with sub-second response latency (FRL under 0.8 s).

0 Citations
0 Influential
11 Altmetric
55.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!