SLM-SS: 생성적 음성 분리 모델을 위한 음성 언어 모델
SLM-SS: Speech Language Model for Generative Speech Separation
음성 분리(SS)는 신경망 기반 방법의 발전으로 상당한 진전을 이루었으며, 신호 수준 지표에서 향상된 성능을 보여주고 있습니다. 그러나 이러한 방법은 종종 분리된 신호에서 음성 명료도를 유지하는 데 어려움을 겪으며, 이는 음성 인식과 같은 후속 작업의 성능에 부정적인 영향을 미칠 수 있습니다. 본 연구에서는 음성 언어 모델을 음성 분리에 적용하여 분리된 신호의 명료도와 일관성을 향상시키는 새로운 접근 방식인 SLM-SS를 제안합니다. 우리는 음성 분리를 이산 다중 코드북 시퀀스 생성으로 정의하고, 인코더-디코더 모델을 사용하여 양자화된 음성 혼합을 대상 토큰으로 매핑합니다. 자기 회귀 모델링 전략 외에도, 잔여 토큰의 디코딩 효율성을 향상시키기 위해 비 자기 회귀 모델을 도입했습니다. LibriMix 데이터셋에 대한 실험 결과는 제안하는 방법이 기존 방식에 비해 음성 명료도를 현저하게 더 잘 유지하며, 다양한 후속 작업에서 향상된 언어적 일관성을 제공한다는 것을 보여줍니다.
Speech separation (SS) has advanced significantly with neural network-based methods, showing improved performance on signal-level metrics. However, these methods often struggle to maintain speech intelligibility in the separated signals, which can negatively affect the performance of downstream tasks such as speech recognition. In this work, we propose SLM-SS, a novel approach that applies speech language models to SS, aiming to enhance the intelligibility and coherence of the separated signals. We frame SS as discrete multi-codebook sequence generation, using Encoder-Decoder models to map quantized speech mixtures to target tokens. In addition to the autoregressive modeling strategy, we introduce a non-autoregressive model to improve decoding efficiency for residual tokens. Experimental results on the LibriMix dataset demonstrate that our approach shows significantly better preservation of speech intelligibility, leading to improved linguistic consistency in a variety of downstream tasks compared to existing approaches.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.