2603.20686v1 Mar 21, 2026 cs.SD

SNAP: 음성 딥페이크 탐지 시 아티팩트 투영을 위한 화자 제거 기술

SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection

Jaegul Choo
Jaegul Choo
Citations: 314
h-index: 10
Jeongho Kim
Jeongho Kim
Citations: 241
h-index: 4
Kyudan Jung
Kyudan Jung
Korea Advanced Institute of Science and Technology
Citations: 9
h-index: 1
Ji-Hoon Kim
Ji-Hoon Kim
Citations: 184
h-index: 8
Minwoo Lee
Minwoo Lee
Citations: 0
h-index: 0
Soyoon Kim
Soyoon Kim
Citations: 16
h-index: 2
Cheonbok Park
Cheonbok Park
Citations: 1,607
h-index: 13

최근 텍스트 음성 변환 기술의 발전으로 인해, 실제 인간의 목소리와 거의 구별할 수 없는 고품질의 합성 음성을 생성할 수 있게 되었습니다. 기존 연구에서는 자기 지도 학습 기반 음성 인코더가 딥페이크 탐지에 효과적임을 보여주었지만, 이러한 모델은 새로운 화자에 대한 일반화 성능이 낮다는 문제가 있었습니다. 저희의 정량적 분석 결과, 이러한 인코더 표현은 화자 정보에 크게 영향을 받으며, 탐지기가 화자별 상관관계를 활용하여 아티팩트와 관련된 특징을 제대로 파악하지 못한다는 것을 알 수 있었습니다. 이러한 현상을 '화자 얽힘(speaker entanglement)'이라고 명명했습니다. 이러한 문제점을 해결하기 위해, 저희는 화자 제거 프레임워크인 SNAP을 제안합니다. SNAP은 화자 서브스페이스를 추정하고, 직교 투영을 적용하여 화자에 의존적인 요소를 억제함으로써, 잔여 특징 내에 존재하는 합성 아티팩트를 분리합니다. SNAP은 화자 얽힘을 줄임으로써, 탐지기가 아티팩트와 관련된 패턴에 집중하도록 유도하며, 이를 통해 최고 수준의 성능을 달성할 수 있습니다.

Original Abstract

Recent advancements in text-to-speech technologies enable generating high-fidelity synthetic speech nearly indistinguishable from real human voices. While recent studies show the efficacy of self-supervised learning-based speech encoders for deepfake detection, these models struggle to generalize across unseen speakers. Our quantitative analysis suggests these encoder representations are substantially influenced by speaker information, causing detectors to exploit speaker-specific correlations rather than artifact-related cues. We call this phenomenon speaker entanglement. To mitigate this reliance, we introduce SNAP, a speaker-nulling framework. We estimate a speaker subspace and apply orthogonal projection to suppress speaker-dependent components, isolating synthesis artifacts within the residual features. By reducing speaker entanglement, SNAP encourages detectors to focus on artifact-related patterns, leading to state-of-the-art performance.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!