신경망 오디오 워터마킹에 대한 공격으로서의 자가 음성 변환
Self Voice Conversion as an Attack against Neural Audio Watermarking
오디오 워터마킹은 화자 정보, 언어적 내용 및 지각적 품질을 유지하면서 음성에 보조 정보를 삽입하는 기술입니다. 최근 신경망 및 디지털 신호 처리 기반 워터마킹 방법의 발전으로 인해 투명성과 삽입 용량이 향상되었지만, 여전히 압축, 추가 노이즈 및 리샘플링과 같은 기존 왜곡에 대한 강건성이 주요 평가 지표입니다. 그러나 딥 러닝 기반 공격의 등장은 워터마크 보안에 새로운 중요한 위협을 야기합니다. 본 연구에서는 오디오 워터마킹 시스템에 대한 보편적이고 내용 보존 공격으로서의 자가 음성 변환을 조사합니다. 자가 음성 변환은 음성 변환 모델을 통해 화자의 음성을 동일한 화자 정보로 재매핑하면서 음향적 특징을 변경하는 기술입니다. 본 연구에서는 이 공격이 최첨단 워터마킹 기술의 신뢰성을 심각하게 저하시킨다는 것을 보여주고, 이는 현대 오디오 워터마킹 기술의 보안에 미치는 영향을 강조합니다.
Audio watermarking embeds auxiliary information into speech while maintaining speaker identity, linguistic content, and perceptual quality. Although recent advances in neural and digital signal processing-based watermarking methods have improved imperceptibility and embedding capacity, robustness is still primarily assessed against conventional distortions such as compression, additive noise, and resampling. However, the rise of deep learning-based attacks introduces novel and significant threats to watermark security. In this work, we investigate self voice conversion as a universal, content-preserving attack against audio watermarking systems. Self voice conversion remaps a speaker's voice to the same identity while altering acoustic characteristics through a voice conversion model. We demonstrate that this attack severely degrades the reliability of state-of-the-art watermarking approaches and highlight its implications for the security of modern audio watermarking techniques.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.