AT-ADD: 모든 유형의 오디오 딥페이크 탐지 챌린지 평가 계획
AT-ADD: All-Type Audio Deepfake Detection Challenge Evaluation Plan
오디오 대규모 언어 모델(ALLM)의 빠른 발전은 음성뿐만 아니라 효과음, 노래, 음악 등 다양한 오디오의 저렴하고 고품질의 생성 및 조작을 가능하게 했습니다. 이러한 기능은 창의성과 콘텐츠 제작을 촉진하지만, 현실적인 오디오 딥페이크가 대규모로 생성되고 유포될 수 있게 되면서 심각한 보안 및 신뢰 문제를 야기합니다. 기존의 오디오 딥페이크 탐지(ADD) 기술 및 벤치마크는 주로 음성 중심적이며, 음성 관련 특징에 의존하는 경향이 있으며, 실제 환경의 왜곡에 대한 강건성이 제한적이고, 다양한 오디오 유형 및 새로운 위조 기술에 대한 일반화 능력 또한 부족합니다. 이러한 문제점을 해결하기 위해, 우리는 ACM Multimedia 2026에서 개최될 All-Type Audio Deepfake Detection (AT-ADD) 챌린지를 제안합니다. AT-ADD는 통제된 학문적 평가와 실질적인 멀티미디어 법과학을 연결하는 것을 목표로 합니다. AT-ADD는 두 가지 트랙으로 구성됩니다. (1) '강건한 음성 딥페이크 탐지': 실제 시나리오 및 기존에 보지 못한 최첨단 음성 생성 방법에 대한 탐지 성능을 평가합니다. (2) '모든 유형의 오디오 딥페이크 탐지': 음성을 넘어 다양한 오디오 유형에 대한 탐지를 확장하고, 음성, 효과음, 노래, 음악 등 모든 유형에 걸쳐 일반화 능력을 향상시키는 것을 목표로 합니다. AT-ADD는 표준화된 데이터셋, 엄격한 평가 프로토콜 및 재현 가능한 기준을 제공함으로써, 강건하고 일반화 가능한 오디오 법과학 기술 개발을 가속화하고, 안전한 통신, 신뢰할 수 있는 미디어 검증 및 책임감 있는 거버넌스를 지원하는 것을 목표로 합니다.
The rapid advancement of Audio Large Language Models (ALLMs) has enabled cost-effective, high-fidelity generation and manipulation of both speech and non-speech audio, including sound effects, singing voices, and music. While these capabilities foster creativity and content production, they also introduce significant security and trust challenges, as realistic audio deepfakes can now be generated and disseminated at scale. Existing audio deepfake detection (ADD) countermeasures (CMs) and benchmarks, however, remain largely speech-centric, often relying on speech-specific artifacts and exhibiting limited robustness to real-world distortions, as well as restricted generalization to heterogeneous audio types and emerging spoofing techniques. To address these gaps, we propose the All-Type Audio Deepfake Detection (AT-ADD) Grand Challenge for ACM Multimedia 2026, designed to bridge controlled academic evaluation with practical multimedia forensics. AT-ADD comprises two tracks: (1) Robust Speech Deepfake Detection, which evaluates detectors under real-world scenarios and against unseen, state-of-the-art speech generation methods; and (2) All-Type Audio Deepfake Detection, which extends detection beyond speech to diverse, unknown audio types and promotes type-agnostic generalization across speech, sound, singing, and music. By providing standardized datasets, rigorous evaluation protocols, and reproducible baselines, AT-ADD aims to accelerate the development of robust and generalizable audio forensic technologies, supporting secure communication, reliable media verification, and responsible governance in an era of pervasive synthetic audio.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.