MM-Sonate: 제로샷 음성 복제 기능을 갖춘 다중 모드 제어 오디오-비디오 생성
MM-Sonate: Multimodal Controllable Audio-Video Generation with Zero-Shot Voice Cloning
오디오-비디오 동시 생성은 동기화된 다중 감각 콘텐츠를 합성하는 것을 목표로 하지만, 현재의 통합 모델은 특히 개성을 보존하는 음성에 대한 세밀한 음향 제어에 어려움을 겪고 있습니다. 기존의 접근 방식은 순차적인 생성으로 인해 시간적 불일치를 겪거나, 통합 합성 프레임워크 내에서 제로샷 음성 복제 기능을 수행할 수 없는 경우가 많습니다. 본 연구에서는 다중 모드 흐름 매칭 프레임워크인 MM-Sonate를 제안합니다. MM-Sonate는 제어 가능한 오디오-비디오 동시 생성과 제로샷 음성 복제 기능을 통합합니다. 기존 연구와 달리, MM-Sonate는 세부적인 의미 설명에 의존하는 대신, 엄격한 언어적 및 시간적 정렬을 강제하기 위해 통합된 지시-음소 입력 방식을 사용합니다. 제로샷 음성 복제를 가능하게 하기 위해, 화자 식별을 언어 콘텐츠로부터 효과적으로 분리하는 음색 주입 메커니즘을 도입했습니다. 또한, 다중 모드 환경에서 표준 분류기-프리 가이드의 한계를 극복하기 위해, 자연적인 노이즈 사전 지식을 활용하여 음향 충실도를 크게 향상시키는 노이즈 기반 부정 조건부 전략을 제안합니다. 실험 결과는 MM-Sonate가 오디오-비디오 동시 생성 벤치마크에서 새로운 최고 성능을 달성했으며, 입술 동기화 및 음성 명확성 측면에서 기존 모델보다 훨씬 뛰어난 성능을 보였고, 전문적인 텍스트-음성 변환 시스템과 비교 가능한 음성 복제 충실도를 달성했음을 보여줍니다.
Joint audio-video generation aims to synthesize synchronized multisensory content, yet current unified models struggle with fine-grained acoustic control, particularly for identity-preserving speech. Existing approaches either suffer from temporal misalignment due to cascaded generation or lack the capability to perform zero-shot voice cloning within a joint synthesis framework. In this work, we present MM-Sonate, a multimodal flow-matching framework that unifies controllable audio-video joint generation with zero-shot voice cloning capabilities. Unlike prior works that rely on coarse semantic descriptions, MM-Sonate utilizes a unified instruction-phoneme input to enforce strict linguistic and temporal alignment. To enable zero-shot voice cloning, we introduce a timbre injection mechanism that effectively decouples speaker identity from linguistic content. Furthermore, addressing the limitations of standard classifier-free guidance in multimodal settings, we propose a noise-based negative conditioning strategy that utilizes natural noise priors to significantly enhance acoustic fidelity. Empirical evaluations demonstrate that MM-Sonate establishes new state-of-the-art performance in joint generation benchmarks, significantly outperforming baselines in lip synchronization and speech intelligibility, while achieving voice cloning fidelity comparable to specialized Text-to-Speech systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.