ARCHI-TTS: 자기 지도 기반 의미 정렬기와 가속화된 추론을 갖춘 플로우 매칭 기반 텍스트 음성 변환 모델
ARCHI-TTS: A flow-matching-based Text-to-Speech Model with Self-supervised Semantic Aligner and Accelerated Inference
확산 모델 기반의 비자동 회귀 텍스트 음성 변환(TTS) 시스템은 뛰어난 제로샷 합성 능력을 보여주었지만, 여전히 텍스트-음성 정렬 모델링의 어려움과 반복적인 노이즈 제거 과정으로 인한 높은 계산 비용이라는 두 가지 주요 문제에 직면해 있습니다. 이러한 제한 사항을 해결하기 위해, 본 논문에서는 텍스트와 오디오 간의 강력한 시간적 및 의미적 일관성을 보장하는 전용 의미 정렬기를 특징으로 하는 ARCHI-TTS를 제안합니다. 또한, ARCHI-TTS는 노이즈 제거 단계에서 인코더 특징을 재사용하는 효율적인 추론 전략을 사용하여 합성 속도를 크게 향상시키면서 성능 저하를 최소화합니다. 조건 인코더에 적용된 보조 CTC 손실은 의미 이해를 더욱 강화합니다. 실험 결과, ARCHI-TTS는 LibriSpeech-PC test-clean 데이터셋에서 1.98%의 단어 오류율(WER)을 달성했으며, SeedTTS test-en/test-zh 데이터셋에서 각각 1.47%/1.42%의 WER을 달성했습니다. 또한, ARCHI-TTS는 높은 추론 효율성을 가지며, 최근 최고 성능을 보이는 TTS 시스템들을 꾸준히 능가하는 성능을 보였습니다.
Although diffusion-based, non-autoregressive text-to-speech (TTS) systems have demonstrated impressive zero-shot synthesis capabilities, their efficacy is still hindered by two key challenges: the difficulty of text-speech alignment modeling and the high computational overhead of the iterative denoising process. To address these limitations, we propose ARCHI-TTS that features a dedicated semantic aligner to ensure robust temporal and semantic consistency between text and audio. To overcome high computational inference costs, ARCHI-TTS employs an efficient inference strategy that reuses encoder features across denoising steps, drastically accelerating synthesis without performance degradation. An auxiliary CTC loss applied to the condition encoder further enhances the semantic understanding. Experimental results demonstrate that ARCHI-TTS achieves a WER of 1.98% on LibriSpeech-PC test-clean, and 1.47%/1.42% on SeedTTS test-en/test-zh with a high inference efficiency, consistently outperforming recent state-of-the-art TTS systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.