VividVoice: 장면 인식 기반 시각적 음성 합성의 통합 프레임워크
VividVoice: A Unified Framework for Scene-Aware Visually-Driven Speech Synthesis
본 논문에서는 기존 음성 생성 모델의 한계를 극복하고 현실 세계와 조화로운 몰입형 청각 경험을 제공하기 위한 새로운 연구 과제인 장면 인식 기반 시각적 음성 합성을 제안합니다. 데이터 부족 및 모달리티 분리라는 두 가지 핵심 문제를 해결하기 위해, 우리는 통합 생성 프레임워크인 VividVoice를 제안합니다. 첫째, 혁신적인 자동화 파이프라인을 통해 시각적 장면, 화자 정보, 오디오 간의 강력한 상관관계를 구축한 대규모 고품질 멀티모달 데이터셋인 Vivid-210K를 구축했습니다. 둘째, 시각적 장면에서 음색 및 환경 음향 특징까지 세밀하게 정렬할 수 있도록 분리된 메모리 뱅크 아키텍처와 교차 모달 하이브리드 감독 전략을 활용하는 핵심 정렬 모듈인 D-MSVA를 설계했습니다. 주관적 및 객관적 실험 결과는 VividVoice가 오디오 충실도, 내용 명확성 및 멀티모달 일관성 측면에서 기존 모델보다 현저히 우수한 성능을 보임을 입증합니다. 데모는 https://chengyuann.github.io/VividVoice/ 에서 확인할 수 있습니다.
We introduce and define a novel task-Scene-Aware Visually-Driven Speech Synthesis, aimed at addressing the limitations of existing speech generation models in creating immersive auditory experiences that align with the real physical world. To tackle the two core challenges of data scarcity and modality decoupling, we propose VividVoice, a unified generative framework. First, we constructed a large-scale, high-quality hybrid multimodal dataset, Vivid-210K, which, through an innovative programmatic pipeline, establishes a strong correlation between visual scenes, speaker identity, and audio for the first time. Second, we designed a core alignment module, D-MSVA, which leverages a decoupled memory bank architecture and a cross-modal hybrid supervision strategy to achieve fine-grained alignment from visual scenes to timbre and environmental acoustic features. Both subjective and objective experimental results provide strong evidence that VividVoice significantly outperforms existing baseline models in terms of audio fidelity, content clarity, and multimodal consistency. Our demo is available at https://chengyuann.github.io/VividVoice/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.