2604.19652v1 Apr 21, 2026 cs.SD

딥러닝 프레임워크를 활용한 환경 소리 딥페이크 탐지

Environmental Sound Deepfake Detection Using Deep-Learning Framework

Dat Tran
Dat Tran
Citations: 5
h-index: 1
David Fischinger
David Fischinger
Citations: 14
h-index: 3
Alexander Schindler
Alexander Schindler
Citations: 72
h-index: 3
Martin Boyer
Martin Boyer
Citations: 14
h-index: 3
Lam Pham
Lam Pham
Citations: 71
h-index: 3
Khoi D. Vu
Khoi D. Vu
Citations: 0
h-index: 0
Phat Lam
Phat Lam
Citations: 59
h-index: 3
Songqing Le
Songqing Le
Citations: 0
h-index: 0
V. Nguyen
V. Nguyen
Citations: 0
h-index: 0

본 논문에서는 환경 소리 딥페이크 탐지(ESDD)를 위한 딥러닝 프레임워크를 제안합니다. ESDD는 입력 오디오 녹음에서 음향 장면과 음향 이벤트가 진짜인지 가짜인지 식별하는 작업입니다. 이를 위해, 개별 스펙트로그램, 다양한 네트워크 구조 및 사전 훈련된 모델, 스펙트로그램 또는 네트워크 구조의 앙상블이 ESDD 성능에 미치는 영향을 탐색하기 위한 광범위한 실험을 수행했습니다. EnvSDD 및 ESDD-Challenge-TestSet의 벤치마크 데이터 세트에 대한 실험 결과는 음향 장면의 딥페이크 오디오를 탐지하는 것과 음향 이벤트의 딥페이크 오디오를 탐지하는 것은 개별적인 작업으로 간주되어야 함을 나타냅니다. 또한, 사전 훈련된 모델을 미세 조정하는 방식이 ESDD 작업에서 모델을 처음부터 학습하는 것보다 더 효과적인 것으로 나타났습니다. 최종적으로, 제안된 세 단계 학습 전략으로 사전 훈련된 WavLM 모델을 미세 조정하여 개발된 최적 모델은 EnvSDD 테스트 세트에서 정확도 0.98, F1 점수 0.95, AuC 0.99를 달성했으며, ESDD-Challenge-TestSet 데이터 세트에서는 정확도 0.88, F1 점수 0.77, AuC 0.92를 달성했습니다.

Original Abstract

In this paper, we propose a deep-learning framework for environmental sound deepfake detection (ESDD) -- the task of identifying whether the sound scene and sound event in an input audio recording is fake or not. To this end, we conducted extensive experiments to explore how individual spectrograms, a wide range of network architectures and pre-trained models, ensemble of spectrograms or network architectures affect the ESDD task performance. The experimental results on the benchmark datasets of EnvSDD and ESDD-Challenge-TestSet indicate that detecting deepfake audio of sound scene and detecting deepfake audio of sound event should be considered as individual tasks. We also indicate that the approach of finetuning a pre-trained model is more effective compared with training a model from scratch for the ESDD task. Eventually, our best model, which was finetuned from the pre-trained WavLM model with the proposed three-stage training strategy, achieve the Accuracy of 0.98, F1 Score of 0.95, AuC of 0.99 on EnvSDD Test subset and the Accuracy of 0.88, F1 Score of 0.77, and AuC of 0.92 on ESDD-Challenge-TestSet dataset.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!