LLM 기반 TTS에서 스트리밍 텍스트 입력을 위한 음성 경계 인식 스트리밍 생성
Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input
스트리밍 텍스트를 입력받는 스트리밍 TTS는 인터랙티브 시스템에 필수적이지만, 이 방식은 예측 범위 부족으로 인한 부자연스러운 음성 및 무한한 컨텍스트로 인한 장문 생성의 어려움이라는 두 가지 주요 과제를 안고 있습니다. 본 논문에서는 약하게 시간 정렬된 데이터를 활용하여 사전 훈련된 LLM 기반 TTS 모델을 적응시키는 음성 경계 인식 후처리 전략을 제안합니다. 특히, 제한된 미래 텍스트가 주어질 때, 모델은 특정 콘텐츠 경계에서 조기 종료를 학습하도록 조정됩니다. 추론 과정에서, 슬라이딩 윈도우 프롬프트는 이전 텍스트와 음성 토큰을 전달하여 컨텍스트를 제한하고 원활한 연결을 보장합니다. 평가 결과, 제안하는 방법은 단문 및 장문 시나리오 모두에서 CosyVoice-Style 인터리브드 기준 모델보다 우수한 성능을 보였습니다. 특히, 장문 합성에 있어서는 단어 오류율이 66.2% 감소(71.0%에서 4.8%로 감소)하고 화자 및 감정 유사도가 각각 16.1% 및 1.5% 증가하여, 점진적인 텍스트 입력을 사용하는 스트리밍 TTS를 위한 강력한 솔루션을 제공합니다.
Streaming TTS that receives streaming text is essential for interactive systems, yet this scheme faces two major challenges: unnatural prosody due to missing lookahead and long-form collapse due to unbounded context. We propose a prosodic-boundary-aware post-training strategy, adapting a pretrained LLM-based TTS model using weakly time-aligned data. Specifically, the model is adapted to learn early stopping at specified content boundaries when provided with limited future text. During inference, a sliding-window prompt carries forward previous text and speech tokens, ensuring bounded context and seamless concatenation. Evaluations show our method outperforms CosyVoice-Style interleaved baseline in both short and long-form scenarios. In long-text synthesis, especially, it achieves a 66.2% absolute reduction in word error rate (from 71.0% to 4.8%) and increases speaker and emotion similarity by 16.1% and 1.5% relatively, offering a robust solution for streaming TTS with incremental text.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.