AlphaFlowTSE: 조건부 AlphaFlow를 이용한 단일 단계 생성형 목표 화자 분리
AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow
목표 화자 분리(TSE)는 짧은 참조 발화를 사용하여 다중 화자 혼합 음성에서 목표 화자의 음성을 추출하는 것을 목표로 합니다. 최근의 확산 모델 및 플로우 매칭 생성기 연구는 목표 음성의 품질을 향상시켰습니다. 그러나 다단계 샘플링은 지연 시간을 증가시키고, 단일 단계 솔루션은 종종 실제 대화에서 신뢰성이 떨어질 수 있는 혼합 음성 의존적 시간 좌표에 의존합니다. 본 논문에서는 Jacobian-vector product (JVP)를 사용하지 않는 AlphaFlow 목적 함수로 학습된 단일 단계 조건부 생성 모델인 AlphaFlowTSE를 제안합니다. AlphaFlowTSE는 관찰된 혼합 음성에서 시작하여 혼합 음성에서 목표 음성으로의 평균 속도 이동을 학습하며, 보조 혼합 비율 예측을 제거하고, 플로우 매칭과 간격 일관성 기반의 교사-학생 모델을 결합하여 학습 안정성을 향상시킵니다. Libri2Mix 및 REAL-T 데이터셋에 대한 실험 결과, AlphaFlowTSE는 목표 화자 유사성을 향상시키고 실제 혼합 음성에 대한 일반화 성능을 개선하여 후속 자동 음성 인식(ASR) 시스템의 성능을 향상시키는 것을 확인했습니다.
In target speaker extraction (TSE), we aim to recover target speech from a multi-talker mixture using a short enrollment utterance as reference. Recent studies on diffusion and flow-matching generators have improved target-speech fidelity. However, multi-step sampling increases latency, and one-step solutions often rely on a mixture-dependent time coordinate that can be unreliable for real-world conversations. We present AlphaFlowTSE, a one-step conditional generative model trained with a Jacobian-vector product (JVP)-free AlphaFlow objective. AlphaFlowTSE learns mean-velocity transport along a mixture-to-target trajectory starting from the observed mixture, eliminating auxiliary mixing-ratio prediction, and stabilizes training by combining flow matching with an interval-consistency teacher-student target. Experiments on Libri2Mix and REAL-T confirm that AlphaFlowTSE improves target-speaker similarity and real-mixture generalization for downstream automatic speech recognition (ASR).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.