mAVE: 공동 오디오-비디오 생성 모델을 위한 워터마크
mAVE: A Watermark for Joint Audio-Visual Generation Models
공동 오디오-비디오 생성 모델이 상업적으로 널리 사용됨에 따라, 벤더의 저작권을 보호하고 콘텐츠의 출처를 보장하기 위해 워터마크를 삽입하는 것이 필수적입니다. 그러나 기존 기술은 모달리티를 독립적인 개체로 취급하여 구조적 불일치를 야기하며, 이는 중요한 '바인딩 취약점'을 노출합니다. 공격자는 이 취약점을 이용하여 '스왑 공격'을 수행합니다. 즉, 정통 오디오를 악성 딥페이크로 대체하면서 워터마크가 포함된 비디오는 그대로 유지합니다. 현재의 탐지기는 독립적인 검증($Video_{wm}igvee Audio_{wm}$)에 의존하기 때문에, 조작된 콘텐츠를 잘못 인증하여 유해한 미디어가 원래 벤더에게 귀속되도록 만들고 벤더의 평판에 심각한 피해를 줄 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 공동 아키텍처에 특화되어 설계된 최초의 워터마크 프레임워크인 mAVE (Manifold Audio-Visual Entanglement, 다양체 오디오-비디오 통합)를 제안합니다. mAVE는 초기화 시 오디오 및 비디오 잠재 변수를 암호학적으로 결합하며, 역변환 샘플링을 통해 '합법적인 통합 다양체'를 정의합니다. 최첨단 모델(LTX-2, MOVA)에 대한 실험 결과, mAVE는 성능 저하 없이 스왑 공격에 대한 지수적인 보안 수준을 제공합니다. 거의 완벽한 결합 무결성($>99%$)을 달성하여, mAVE는 벤더의 저작권을 보호하는 강력한 암호학적 방어 수단을 제공합니다.
As Joint Audio-Visual Generation Models see widespread commercial deployment, embedding watermarks has become essential for protecting vendor copyright and ensuring content provenance. However, existing techniques suffer from an architectural mismatch by treating modalities as decoupled entities, exposing a critical Binding Vulnerability. Adversaries exploit this via Swap Attacks by replacing authentic audio with malicious deepfakes while retaining the watermarked video. Because current detectors rely on independent verification ($Video_{wm}\vee Audio_{wm}$), they incorrectly authenticate the manipulated content, falsely attributing harmful media to the original vendor and severely damaging their reputation. To address this, we propose mAVE (Manifold Audio-Visual Entanglement), the first watermarking framework natively designed for joint architectures. mAVE cryptographically binds audio and video latents at initialization without fine-tuning, defining a Legitimate Entanglement Manifold via Inverse Transform Sampling. Experiments on state-of-the-art models (LTX-2, MOVA) demonstrate that mAVE guarantees performance-losslessness and provides an exponential security bound against Swap Attacks. Achieving near-perfect binding integrity ($>99\%$), mAVE offers a robust cryptographic defense for vendor copyright.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.