2603.21608v1 Mar 23, 2026 eess.AS

잠재 공간에서의 흐름 매칭 및 확산 트랜스포머를 기반으로 한 다중 왜곡에 강인한 음성 향상 모델: DiT-Flow

DiT-Flow: Speech Enhancement Robust to Multiple Distortions based on Flow Matching in Latent Space and Diffusion Transformers

N. Dehak
N. Dehak
Citations: 12,785
h-index: 48
Thomas Thebaud
Thomas Thebaud
Citations: 112
h-index: 6
Helin Wang
Helin Wang
Citations: 71
h-index: 4
J. Villalba
J. Villalba
Citations: 3,065
h-index: 29
Tianyu Cao
Tianyu Cao
Johns Hopkins University
Citations: 74
h-index: 4
Ari Frummer
Ari Frummer
Citations: 1
h-index: 1
Yuval Sieradzki
Yuval Sieradzki
Citations: 19
h-index: 2
Adi Arbel
Adi Arbel
Citations: 1
h-index: 1
Laureano Moro Velázquez
Laureano Moro Velázquez
Citations: 120
h-index: 4
Oren Gal
Oren Gal
Citations: 18
h-index: 1

최근 생성 모델, 특히 확산 모델 및 흐름 매칭 모델은 오디오 분야에서 뛰어난 성능을 보여주고 있습니다. 그러나 음성 향상(SE) 모델은 일반적으로 제한된 데이터 세트로 훈련되고 좁은 조건에서 평가되어 실제 적용에 제한이 있습니다. 이러한 문제를 해결하기 위해, 우리는 잠재 확산 트랜스포머(DiT)를 기반으로 하며, 노이즈, 잔향, 압축을 포함한 다양한 왜곡에 대한 강건성을 갖도록 훈련된 흐름 매칭 기반 음성 향상 프레임워크인 DiT-Flow를 제안합니다. DiT-Flow는 변분 오토인코더(VAE)에서 파생된 간결한 잠재 특징을 기반으로 작동합니다. 우리는 LibriSpeech, FSD50K, FMA 및 90개의 Matterport3D 장면으로 구성된 StillSonicSet 데이터 세트를 사용하여 제안하는 방법을 검증했습니다. 실험 결과, DiT-Flow는 최첨단 생성 음성 향상 모델보다 일관되게 우수한 성능을 보여주며, 이는 다중 조건 음성 향상에서 흐름 매칭의 효과를 입증합니다. 합성 데이터의 현실성을 높이기 위한 노력이 계속되고 있지만, 음성 향상에서 지속적인 문제는 훈련 및 배포 조건 간의 필연적인 불일치입니다. MoE 프레임워크에 LoRA를 통합하여, DiT-Flow가 총 매개변수의 4.9%만을 사용하여 다중 왜곡에 강인한 고성능 훈련을 달성하도록 했습니다. 이를 통해 5가지 새로운 왜곡 조건에서 더 나은 성능을 얻었습니다.

Original Abstract

Recent advances in generative models, such as diffusion and flow matching, have shown strong performance in audio tasks. However, speech enhancement (SE) models are typically trained on limited datasets and evaluated under narrow conditions, limiting real-world applicability. To address this, we propose DiT-Flow, a flow matching-based SE framework built on the latent Diffusion Transformer (DiT) backbone and trained for robustness across diverse distortions, including noise, reverberation, and compression. DiT-Flow operates on compact variational auto-encoders (VAEs)-derived latent features. We validated our approach on StillSonicSet, a synthetic yet acoustically realistic dataset composed of LibriSpeech, FSD50K, FMA, and 90 Matterport3D scenes. Experiments show that DiT-Flow consistently outperforms state-of-the-art generative SE models, demonstrating the effectiveness of flow matching in multi-condition speech enhancement. Despite ongoing efforts to expand synthetic data realism, a persistent bottleneck in SE is the inevitable mismatch between training and deployment conditions. By integrating LoRA with the MoE framework, we achieve both parameter-efficient and high-performance training for DiT-Flow robust to multiple distortions with using 4.9% percentage of the total parameters to obtain a better performance on five unseen distortions.

0 Citations
0 Influential
24 Altmetric
120.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!