DSFlow: 듀얼 슈퍼비전 및 단계 인지 아키텍처를 이용한 원스텝 플로우 매칭 음성 합성
DSFlow: Dual Supervision and Step-Aware Architecture for One-Step Flow Matching Speech Synthesis
플로우 매칭 모델은 고품질의 텍스트 음성 변환을 가능하게 하지만, 추론 과정에서의 반복적인 샘플링은 상당한 계산 비용을 발생시킵니다. 증류(distillation)는 추론 단계를 줄이는 데 널리 사용되지만, 기존 방법들은 종종 최종 오류 누적에 따른 과정 편차 문제를 겪습니다. 또한, 연속 시간 아키텍처를 그대로 사용하여 이산적인, 고정 단계 생성에 적용하는 것은 구조적인 파라미터 비효율성을 야기합니다. 이러한 문제점을 해결하기 위해, 우리는 소규모 단계 및 원스텝 합성을 위한 모듈화된 증류 프레임워크인 DSFlow를 제안합니다. DSFlow는 생성을 이산적인 예측 작업으로 재정의하고, 학생 모델을 목표 추론 환경에 맞게 명시적으로 조정합니다. DSFlow는 종점 매칭과 결정론적인 평균 속도 정렬을 결합한 듀얼 슈퍼비전 전략을 통해 학습 안정성을 향상시켜, 추론 단계에 걸쳐 일관된 생성 경로를 유지합니다. 또한, DSFlow는 연속 시간 타임스탬프 조건화를 경량화된 단계 인지 토큰으로 대체하여 모델 용량을 이산 작업의 훨씬 축소된 타임스탬프 공간에 맞게 조정함으로써 파라미터 효율성을 향상시킵니다. 다양한 플로우 기반 텍스트 음성 변환 아키텍처에 대한 광범위한 실험 결과, DSFlow가 표준 증류 방식보다 일관되게 우수한 성능을 보이며, 뛰어난 소규모 단계 및 원스텝 합성 품질을 달성하는 동시에 모델 파라미터 및 추론 비용을 절감하는 것을 보여줍니다.
Flow-matching models have enabled high-quality text-to-speech synthesis, but their iterative sampling process during inference incurs substantial computational cost. Although distillation is widely used to reduce the number of inference steps, existing methods often suffer from process variance due to endpoint error accumulation. Moreover, directly reusing continuous-time architectures for discrete, fixed-step generation introduces structural parameter inefficiencies. To address these challenges, we introduce DSFlow, a modular distillation framework for few-step and one-step synthesis. DSFlow reformulates generation as a discrete prediction task and explicitly adapts the student model to the target inference regime. It improves training stability through a dual supervision strategy that combines endpoint matching with deterministic mean-velocity alignment, enforcing consistent generation trajectories across inference steps. In addition, DSFlow improves parameter efficiency by replacing continuous-time timestep conditioning with lightweight step-aware tokens, aligning model capacity with the significantly reduced timestep space of the discrete task. Extensive experiments across diverse flow-based text-to-speech architectures demonstrate that DSFlow consistently outperforms standard distillation approaches, achieving strong few-step and one-step synthesis quality while reducing model parameters and inference cost.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.