HierCon: 오디오 딥페이크 탐지를 위한 계층적 대비 어텐션
HierCon: Hierarchical Contrastive Attention for Audio Deepfake Detection
현대적인 TTS 및 음성 변환 시스템에 의해 생성되는 오디오 딥페이크는 실제 음성과 구별하기 점점 더 어려워지고 있으며, 이는 보안 및 온라인 신뢰에 심각한 위험을 초래합니다. 최첨단 자기 지도 학습 모델은 풍부한 다층 표현을 제공하지만, 기존 탐지기는 각 레이어를 독립적으로 처리하고, 합성 아티팩트를 식별하는 데 중요한 시간적 및 계층적 의존성을 간과합니다. 본 논문에서는 시간 프레임, 인접 레이어 및 레이어 그룹 간의 의존성을 모델링하고 도메인 불변 임베딩을 장려하는 계층적 레이어 어텐션 프레임워크인 HierCon을 제안합니다. ASVspoof 2021 DF 및 실제 데이터 세트에서 평가한 결과, 본 방법은 최첨단 성능(1.93% 및 6.87% EER)을 달성했으며, 독립적인 레이어 가중치 방식에 비해 각각 36.6% 및 22.5% 향상되었습니다. 결과 및 어텐션 시각화는 계층적 모델링이 다양한 생성 기술 및 녹음 조건에 대한 일반화 성능을 향상시킨다는 것을 확인합니다.
Audio deepfakes generated by modern TTS and voice conversion systems are increasingly difficult to distinguish from real speech, raising serious risks for security and online trust. While state-of-the-art self-supervised models provide rich multi-layer representations, existing detectors treat layers independently and overlook temporal and hierarchical dependencies critical for identifying synthetic artefacts. We propose HierCon, a hierarchical layer attention framework combined with margin-based contrastive learning that models dependencies across temporal frames, neighbouring layers, and layer groups, while encouraging domain-invariant embeddings. Evaluated on ASVspoof 2021 DF and In-the-Wild datasets, our method achieves state-of-the-art performance (1.93% and 6.87% EER), improving over independent layer weighting by 36.6% and 22.5% respectively. The results and attention visualisations confirm that hierarchical modelling enhances generalisation to cross-domain generation techniques and recording conditions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.