2603.19739v1 Mar 20, 2026 cs.SD

MOSS-TTSD: 텍스트 기반 구어 대화 생성

MOSS-TTSD: Text to Spoken Dialogue Generation

Cheng Chang
Cheng Chang
Citations: 263
h-index: 6
Zheng-Yu Lin
Zheng-Yu Lin
Citations: 5
h-index: 1
Yiyan Zhang
Yiyan Zhang
Citations: 46
h-index: 4
Hanfu Chen
Hanfu Chen
Citations: 39
h-index: 4
Zhaoye Fei
Zhaoye Fei
Citations: 1,048
h-index: 12
Qinyuan Cheng
Qinyuan Cheng
Fudan Universality
Citations: 868
h-index: 17
Shimin Li
Shimin Li
Citations: 397
h-index: 11
Botian Jiang
Botian Jiang
Citations: 279
h-index: 6
Yuqian Zhang
Yuqian Zhang
Citations: 6
h-index: 1
Dong Yu
Dong Yu
Citations: 41
h-index: 2
Mingshu Chen
Mingshu Chen
Citations: 45
h-index: 4
Ya Jiang
Ya Jiang
Citations: 68
h-index: 6
Yiwei Zhao
Yiwei Zhao
Citations: 13
h-index: 2
Yucheng Yuan
Yucheng Yuan
Citations: 38
h-index: 4
Kexin Huang
Kexin Huang
Citations: 71
h-index: 5
Jun Zhan
Jun Zhan
Citations: 1,172
h-index: 6
Xiaogui Yang
Xiaogui Yang
Citations: 526
h-index: 6
Xipeng Qiu
Xipeng Qiu
Citations: 16
h-index: 3

구어 대화 생성은 팟캐스트, 실시간 해설, 엔터테인먼트 콘텐츠 등 다양한 분야에서 중요하지만, 단일 발화 텍스트 음성 변환(TTS)에 비해 상당한 어려움을 안고 있습니다. 정확한 발화 교대, 발화 간 음향적 일관성, 장기 안정성이 주요 요구 사항이지만, 현재 모델들은 종종 대화 맥락 모델링의 부족으로 인해 이러한 요구 사항을 충족하지 못합니다. 이러한 격차를 해소하기 위해, 저희는 표현력이 풍부하고 다국어를 지원하는 다자간 대화 음성 합성에 특화된 모델인 MOSS-TTSD를 제안합니다. MOSS-TTSD는 향상된 장기 맥락 모델링을 통해 대화 스크립트에서 명시적인 화자 태그를 사용하여 장기간의 구어 대화를 생성하며, 최대 60분에 이르는 단일 패스 합성을 지원하고, 최대 5명의 화자가 참여하는 다자간 대화를 처리하며, 짧은 참조 오디오 클립을 통해 음성 복제 기능을 제공합니다. 이 모델은 영어와 중국어를 포함한 다양한 주요 언어를 지원하며, 다양한 장기 시나리오에 적용될 수 있습니다. 또한, 기존 평가 방법의 한계를 극복하기 위해, 저희는 강제 정렬을 기반으로 화자 식별 정확도와 화자 유사성을 측정하는 객관적인 평가 프레임워크인 TTSD-eval을 제안합니다. 객관적 및 주관적 평가 결과는 MOSS-TTSD가 강력한 오픈 소스 및 독점 모델을 능가하는 대화 생성 성능을 보여주었습니다.

Original Abstract

Spoken dialogue generation is crucial for applications like podcasts, dynamic commentary, and entertainment content, but poses significant challenges compared to single-utterance text-to-speech (TTS). Key requirements include accurate turn-taking, cross-turn acoustic consistency, and long-form stability, which current models often fail to address due to a lack of dialogue context modeling. To bridge this gap, we present MOSS-TTSD, a spoken dialogue synthesis model designed for expressive, multi-party conversational speech across multiple languages. With enhanced long-context modeling, MOSS-TTSD generates long-form spoken conversations from dialogue scripts with explicit speaker tags, supporting up to 60 minutes of single-pass synthesis, multi-party dialogue with up to 5 speakers, and zero-shot voice cloning from a short reference audio clip. The model supports various mainstream languages, including English and Chinese, and is adapted to several long-form scenarios. Additionally, to address limitations of existing evaluation methods, we propose TTSD-eval, an objective evaluation framework based on forced alignment that measures speaker attribution accuracy and speaker similarity without relying on speaker diarization tools. Both objective and subjective evaluation results show that MOSS-TTSD surpasses strong open-source and proprietary baselines in dialogue synthesis.

1 Citations
0 Influential
8.5 Altmetric
43.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!