2604.22209v1 Apr 24, 2026 eess.AS

UniSonate: 텍스트 지시를 활용한 음성, 음악, 음향 효과 생성의 통합 모델

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

Jianwu Dang
Jianwu Dang
Citations: 259
h-index: 9
Chunyu Qiang
Chunyu Qiang
Citations: 55
h-index: 3
Xiaopeng Wang
Xiaopeng Wang
Citations: 40
h-index: 3
Kang Yin
Kang Yin
Citations: 41
h-index: 3
Tianrui Wang
Tianrui Wang
Citations: 59
h-index: 4
Longbiao Wang
Longbiao Wang
Citations: 57
h-index: 4
Ruibo Fu
Ruibo Fu
Citations: 3
h-index: 1
Yuxin Guo
Yuxin Guo
Citations: 123
h-index: 6
T. Ma
T. Ma
Citations: 1
h-index: 1
Ziyu Zhang
Ziyu Zhang
Citations: 191
h-index: 5
Cheng Gong
Cheng Gong
Citations: 13
h-index: 2
Yushen Chen
Yushen Chen
Citations: 401
h-index: 4
Chen Zhang
Chen Zhang
Citations: 31
h-index: 1
Yuzhe Liang
Yuzhe Liang
Citations: 38
h-index: 3

생성형 오디오 모델링은 주로 특수화된 작업, 즉 텍스트 음성 변환(TTS), 텍스트 음악 변환(TTM), 그리고 텍스트 오디오 변환(TTA)으로 분산되어 있으며, 각 작업은 이질적인 제어 방식을 사용합니다. 이러한 다양한 모달리티를 통합하는 것은 구조화된 의미 표현(음성/음악)과 비정형 음향 질감(음향 효과) 사이의 근본적인 불일치 때문에 여전히 중요한 과제입니다. 본 논문에서는 UniSonate를 소개합니다. UniSonate는 표준화된, 참조 없이 작동하는 자연어 지시 인터페이스를 통해 음성, 음악, 음향 효과를 합성할 수 있는 통합형 플로우 매칭 프레임워크입니다. 구조적 차이를 해소하기 위해, 우리는 비정형 환경 소음을 구조화된 시간 잠재 공간으로 투영하는 새로운 동적 토큰 주입 메커니즘을 제안합니다. 이를 통해 음소 기반 멀티모달 디퓨전 트랜스포머(MM-DiT) 내에서 정밀한 지속 시간 제어가 가능합니다. 다단계 커리큘럼 학습 전략과 결합하여, 이 접근 방식은 크로스 모달 최적화 충돌을 효과적으로 완화합니다. 광범위한 실험 결과, UniSonate는 지시 기반 TTS(WER 1.47%) 및 TTM(SongEval Coherence 3.18)에서 최첨단 성능을 달성하며, TTA에서도 경쟁력 있는 충실도를 유지합니다. 더욱 중요한 점은, 다양한 오디오 데이터에 대한 공동 학습을 통해 구조적 일관성과 운율 표현력이 단일 작업 기반 모델보다 크게 향상된다는 것을 확인했습니다. 오디오 샘플은 https://qiangchunyu.github.io/UniSonate/ 에서 확인할 수 있습니다.

Original Abstract

Generative audio modeling has largely been fragmented into specialized tasks, text-to-speech (TTS), text-to-music (TTM), and text-to-audio (TTA), each operating under heterogeneous control paradigms. Unifying these modalities remains a fundamental challenge due to the intrinsic dissonance between structured semantic representations (speech/music) and unstructured acoustic textures (sound effects). In this paper, we introduce UniSonate, a unified flow-matching framework capable of synthesizing speech, music, and sound effects through a standardized, reference-free natural language instruction interface. To reconcile structural disparities, we propose a novel dynamic token injection mechanism that projects unstructured environmental sounds into a structured temporal latent space, enabling precise duration control within a phoneme-driven Multimodal Diffusion Transformer (MM-DiT). Coupled with a multi-stage curriculum learning strategy, this approach effectively mitigates cross-modal optimization conflicts. Extensive experiments demonstrate that UniSonate achieves state-of-the-art performance in instruction-based TTS (WER 1.47%) and TTM (SongEval Coherence 3.18), while maintaining competitive fidelity in TTA. Crucially, we observe positive transfer, where joint training on diverse audio data significantly enhances structural coherence and prosodic expressiveness compared to single-task baselines. Audio samples are available at https://qiangchunyu.github.io/UniSonate/.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!