ReStyle-TTS: 제로샷 음성 합성 모델을 위한 상대적이고 연속적인 스타일 제어
ReStyle-TTS: Relative and Continuous Style Control for Zero-Shot Speech Synthesis
제로샷 텍스트 음성 변환(TTS) 모델은 짧은 참조 오디오로부터 화자의 음색을 복제할 수 있지만, 참조 오디오에 포함된 발화 스타일을 강하게 상속받는 경향이 있습니다. 결과적으로, 원하는 스타일로 음성을 합성하려면 신중하게 참조 오디오를 선택해야 하는데, 이는 사용 가능한 참조 자료가 제한적이거나 일치하지 않는 경우에 비실용적입니다. 최근의 제어 가능한 TTS 방법들은 이러한 문제를 해결하려는 시도를 하지만, 일반적으로 절대적인 스타일 목표와 이산적인 텍스트 프롬프트에 의존하므로, 연속적이고 참조 상대적인 스타일 제어를 지원하지 못합니다. 본 논문에서는 제로샷 TTS에서 연속적이고 참조 상대적인 스타일 제어를 가능하게 하는 프레임워크인 ReStyle-TTS를 제안합니다. 핵심 아이디어는 효과적인 스타일 제어를 위해서는 모델이 참조 스타일 의존성을 줄인 후에 명시적인 제어 메커니즘을 도입해야 한다는 것입니다. 이를 위해, 텍스트 및 참조 가이드를 독립적으로 제어하여 참조 스타일 의존성을 줄이면서 텍스트 충실도를 유지하는 Decoupled Classifier-Free Guidance (DCFG)를 도입했습니다. 또한, 스타일별 LoRA와 Orthogonal LoRA Fusion을 함께 사용하여 연속적이고 독립적인 다중 속성 제어를 가능하게 하고, 약화된 참조 가이드로 인해 발생하는 음색 변화를 완화하기 위한 Timbre Consistency Optimization 모듈을 도입했습니다. 실험 결과, ReStyle-TTS는 음성 선명도와 화자 음색을 유지하면서 음높이, 에너지, 그리고 다양한 감정에 대한 사용자 친화적이고 연속적이며 상대적인 제어를 가능하게 하며, 어려운 참조-목표 스타일 불일치 시나리오에서도 안정적인 성능을 보였습니다.
Zero-shot text-to-speech models can clone a speaker's timbre from a short reference audio, but they also strongly inherit the speaking style present in the reference. As a result, synthesizing speech with a desired style often requires carefully selecting reference audio, which is impractical when only limited or mismatched references are available. While recent controllable TTS methods attempt to address this issue, they typically rely on absolute style targets and discrete textual prompts, and therefore do not support continuous and reference-relative style control. We propose ReStyle-TTS, a framework that enables continuous and reference-relative style control in zero-shot TTS. Our key insight is that effective style control requires first reducing the model's implicit dependence on reference style before introducing explicit control mechanisms. To this end, we introduce Decoupled Classifier-Free Guidance (DCFG), which independently controls text and reference guidance, reducing reliance on reference style while preserving text fidelity. On top of this, we apply style-specific LoRAs together with Orthogonal LoRA Fusion to enable continuous and disentangled multi-attribute control, and introduce a Timbre Consistency Optimization module to mitigate timbre drift caused by weakened reference guidance. Experiments show that ReStyle-TTS enables user-friendly, continuous, and relative control over pitch, energy, and multiple emotions while maintaining intelligibility and speaker timbre, and performs robustly in challenging mismatched reference-target style scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.