WavCube: 의미-음향 통합 모델을 통한 음성 이해 및 생성의 통합을 위한 음성 표현 방법
WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling
음성 이해와 생성을 통합하는 것은 통합적인 음성 모델 구축을 위한 중요한 단계입니다. 그러나 현재 이 두 가지 작업에 필요한 서로 다른 표현 방식은 상당한 호환성 문제를 야기합니다. 일반적으로 의미 기반 특징은 자기 지도 학습(SSL)을 통해, 음향 기반 특징은 재구성을 통해 학습됩니다. 이러한 단편적인 표현은 진정한 통합 음성 시스템의 구현을 방해합니다. 본 논문에서는 SSL 음성 인코더로부터 파생된 작고 연속적인 잠재 공간인 WavCube를 제안합니다. WavCube는 음성 이해, 재구성 및 생성을 동시에 지원합니다. WavCube는 두 단계의 훈련 방식을 사용합니다. 1단계에서는 의미 병목(semantic bottleneck)을 훈련하여 원시 SSL 특징에서 발생하는 불필요한 정보를 제거하고, 확산 모델에 적합하도록 만듭니다. 2단계에서는 엔드 투 엔드 재구성을 통해 미세한 음향 정보를 주입하고, 동시에 의미 앵커링 손실(semantic anchoring loss)을 사용하여 표현이 원래의 의미 공간 내에 유지되도록 합니다. 광범위한 실험 결과, WavCube는 8배의 차원 감소에도 불구하고 SUPERB 벤치마크에서 WavLM의 성능에 근접하며, 기존 음향 표현과 동등한 재구성 품질을 달성하고, 최첨단 제로샷 TTS 성능을 제공하며, 훈련 수렴 속도가 훨씬 빠릅니다. 또한 SUPERB-SG 벤치마크에서 음성 향상, 분리 및 음성 변환 작업에서 뛰어난 성능을 보입니다. 체계적인 분석을 통해 WavCube의 두 단계 훈련 방식이 생성 모델링을 위한 SSL 특징의 두 가지 근본적인 단점을 해결한다는 것을 확인했으며, 이는 향후 통합 음성 시스템 개발의 길을 열어줍니다. 코드 및 체크포인트는 https://github.com/yanghaha0908/WavCube 에서 확인할 수 있습니다.
Integrating speech understanding and generation is a pivotal step toward building unified speech models. However, the different representations required for these two tasks currently pose significant compatibility challenges. Typically, semantics-oriented features are learned from self-supervised learning (SSL), and acoustic-oriented features from reconstruction. Such fragmented representations hinder the realization of truly unified speech systems. We present WavCube, a compact continuous latent derived from an SSL speech encoder that simultaneously supports speech understanding, reconstruction, and generation. WavCube employs a two-stage training scheme. Stage 1 trains a semantic bottleneck to filter off-manifold redundancy that makes raw SSL features intractable for diffusion. Stage 2 injects fine-grained acoustic details via end-to-end reconstruction, while a semantic anchoring loss ensures the representation remains grounded within its original semantic manifold. Comprehensive experiments show that WavCube closely approaches WavLM performance on SUPERB despite an 8x dimensional compression, attains reconstruction quality on par with existing acoustic representations, delivers state-of-the-art zero-shot TTS performance with markedly faster training convergence, and excels in speech enhancement, separation, and voice conversion tasks on the SUPERB-SG benchmark. Systematic ablations reveal that WavCube's two-stage recipe resolves two intrinsic flaws of SSL features for generative modeling, paving the way for future unified speech systems. Codes and checkpoints are available at https://github.com/yanghaha0908/WavCube.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.