MSR-HuBERT: 다양한 샘플링 속도에 대한 적응을 위한 자기 지도 학습 사전 훈련
MSR-HuBERT: Self-supervised Pre-training for Adaptation to Multiple Sampling Rates
자기 지도 학습(SSL)은 음성 처리 분야의 발전에 기여했습니다. 그러나 기존의 음성 SSL 방법은 일반적으로 단일 샘플링 속도를 가정하며, 시간 해상도 불일치로 인해 다양한 샘플링 속도의 데이터를 처리하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 다중 샘플링 속도에 대한 적응형 사전 훈련 방법인 MSRHuBERT를 제안합니다. HuBERT를 기반으로, 기존의 단일 속도 다운샘플링 CNN을 다중 샘플링 속도에 대한 적응형 다운샘플링 CNN으로 대체하여, 서로 다른 샘플링 속도의 원시 파형을 리샘플링 없이 공유된 시간 해상도로 매핑합니다. 이러한 설계는 통일된 다중 속도 사전 훈련 및 미세 조정을 가능하게 합니다. 16kHz에서 48kHz까지의 다양한 실험 결과에서, MSRHuBERT는 음성 인식 및 전체 대역 음성 복원 성능에서 HuBERT보다 우수한 성능을 보이며, 고주파 세부 정보를 유지하면서 저주파 의미 구조를 모델링합니다. 또한, MSRHuBERT는 HuBERT의 마스크 예측 목표 및 Transformer 인코더를 그대로 유지하므로, HuBERT에 대해 개발된 기존 분석 및 개선 사항을 그대로 적용할 수 있습니다.
Self-supervised learning (SSL) has advanced speech processing. However, existing speech SSL methods typically assume a single sampling rate and struggle with mixed-rate data due to temporal resolution mismatch. To address this limitation, we propose MSRHuBERT, a multi-sampling-rate adaptive pre-training method. Building on HuBERT, we replace its single-rate downsampling CNN with a multi-sampling-rate adaptive downsampling CNN that maps raw waveforms from different sampling rates to a shared temporal resolution without resampling. This design enables unified mixed-rate pre-training and fine-tuning. In experiments spanning 16 to 48 kHz, MSRHuBERT outperforms HuBERT on speech recognition and full-band speech reconstruction, preserving high-frequency detail while modeling low-frequency semantic structure. Moreover, MSRHuBERT retains HuBERT's mask-prediction objective and Transformer encoder, so existing analyses and improvements that were developed for HuBERT can apply directly.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.