2603.10725v1 Mar 11, 2026 cs.SD

인간의 추론 방식을 모방한 강력한 음성 딥페이크 탐지 연구

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Artem Dvirniak
Artem Dvirniak
Citations: 0
h-index: 0
E. Kushnir
E. Kushnir
Citations: 0
h-index: 0
Dmitrii Tarasov
Dmitrii Tarasov
Citations: 8
h-index: 2
A. Iudin
A. Iudin
Citations: 0
h-index: 0
Mikhail Aleksandrovich Pautov
Mikhail Aleksandrovich Pautov
Skolkovo Institute of Science and Technology
Citations: 168
h-index: 7
D. Korzh
D. Korzh
Citations: 76
h-index: 4
Oleg Y. Rogov
Oleg Y. Rogov
Citations: 160
h-index: 8
O. Kiriukhin
O. Kiriukhin
Citations: 4
h-index: 1

최신 생성 오디오 모델은 악의적인 목적으로 사용될 수 있으며, 특히 다른 사람을 사칭하여 개인 정보를 획득하는 데 사용될 수 있습니다. 이러한 문제를 해결하기 위해 음성 딥페이크 탐지(SDD) 방법이 개발되어 왔습니다. 그러나 현재의 SDD 방법은 새로운 오디오 도메인 및 생성기에 대한 일반화 능력 부족이라는 문제점을 가지고 있습니다. 더욱이, 이러한 방법들은 해석 가능성이 부족하며, 특히 주어진 오디오가 진본인지 조작된 것인지에 대한 인간적인 추론을 제공하고, 인간이 인지할 수 있는 단서를 제공하지 못합니다. 본 논문에서는 대규모 오디오 언어 모델(LALM)의 장점과, 새롭게 제안된 인간이 주석을 달아 생성한 데이터셋에서 파생된 연쇄적 추론 방식을 결합한 새로운 SDD 프레임워크인 HIR-SDD를 제안합니다. 실험 결과는 제안된 방법의 효과성과 예측에 대한 합리적인 근거를 제공하는 능력을 입증합니다.

Original Abstract

The modern generative audio models can be used by an adversary in an unlawful manner, specifically, to impersonate other people to gain access to private information. To mitigate this issue, speech deepfake detection (SDD) methods started to evolve. Unfortunately, current SDD methods generally suffer from the lack of generalization to new audio domains and generators. More than that, they lack interpretability, especially human-like reasoning that would naturally explain the attribution of a given audio to the bona fide or spoof class and provide human-perceptible cues. In this paper, we propose HIR-SDD, a novel SDD framework that combines the strengths of Large Audio Language Models (LALMs) with the chain-of-thought reasoning derived from the novel proposed human-annotated dataset. Experimental evaluation demonstrates both the effectiveness of the proposed method and its ability to provide reasonable justifications for predictions.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!