SNAP: 음성 딥페이크 탐지 시 아티팩트 투영을 위한 화자 제거 기술
SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection
최근 텍스트 음성 변환 기술의 발전으로 인해, 실제 인간의 목소리와 거의 구별할 수 없는 고품질의 합성 음성을 생성할 수 있게 되었습니다. 기존 연구에서는 자기 지도 학습 기반 음성 인코더가 딥페이크 탐지에 효과적임을 보여주었지만, 이러한 모델은 새로운 화자에 대한 일반화 성능이 낮다는 문제가 있었습니다. 저희의 정량적 분석 결과, 이러한 인코더 표현은 화자 정보에 크게 영향을 받으며, 탐지기가 화자별 상관관계를 활용하여 아티팩트와 관련된 특징을 제대로 파악하지 못한다는 것을 알 수 있었습니다. 이러한 현상을 '화자 얽힘(speaker entanglement)'이라고 명명했습니다. 이러한 문제점을 해결하기 위해, 저희는 화자 제거 프레임워크인 SNAP을 제안합니다. SNAP은 화자 서브스페이스를 추정하고, 직교 투영을 적용하여 화자에 의존적인 요소를 억제함으로써, 잔여 특징 내에 존재하는 합성 아티팩트를 분리합니다. SNAP은 화자 얽힘을 줄임으로써, 탐지기가 아티팩트와 관련된 패턴에 집중하도록 유도하며, 이를 통해 최고 수준의 성능을 달성할 수 있습니다.
Recent advancements in text-to-speech technologies enable generating high-fidelity synthetic speech nearly indistinguishable from real human voices. While recent studies show the efficacy of self-supervised learning-based speech encoders for deepfake detection, these models struggle to generalize across unseen speakers. Our quantitative analysis suggests these encoder representations are substantially influenced by speaker information, causing detectors to exploit speaker-specific correlations rather than artifact-related cues. We call this phenomenon speaker entanglement. To mitigate this reliance, we introduce SNAP, a speaker-nulling framework. We estimate a speaker subspace and apply orthogonal projection to suppress speaker-dependent components, isolating synthesis artifacts within the residual features. By reducing speaker entanglement, SNAP encourages detectors to focus on artifact-related patterns, leading to state-of-the-art performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.