잡음 환경에서의 음성 인식 성능 향상을 위한 학습 불필요한 음성 명료도 기반 관측값 추가 방법
Training-Free Intelligibility-Guided Observation Addition for Noisy ASR
자동 음성 인식(ASR) 시스템은 잡음이 많은 환경에서 심각하게 성능 저하를 겪습니다. 음성 향상(SE) 기술은 배경 잡음을 효과적으로 제거하지만, 종종 인식 성능을 저해하는 인공적인 왜곡을 발생시킵니다. 관측값 추가(OA) 기술은 잡음이 있는 음성과 음성 향상된 음성을 결합하여, 음성 향상 또는 ASR 모델의 파라미터를 수정하지 않고도 인식 성능을 향상시킵니다. 본 논문에서는 음성 인식 후단에서 얻은 음성 명료도 추정치를 기반으로 결합 가중치를 결정하는 OA 방법을 제안합니다. 기존의 학습 기반 신경망 예측기 기반 OA 방법과 달리, 제안하는 방법은 학습 없이 적용 가능하여 복잡성을 줄이고 일반화 성능을 향상시킵니다. 다양한 음성 향상-음성 인식 조합 및 데이터셋에 대한 광범위한 실험 결과, 제안하는 방법은 기존 OA 방법보다 강력한 성능과 개선된 결과를 보여줍니다. 또한, 음성 명료도 기반 스위칭 방식의 대안 및 프레임 레벨과 문장 레벨 OA 방식에 대한 추가 분석을 통해 제안하는 설계의 유효성을 검증합니다.
Automatic speech recognition (ASR) degrades severely in noisy environments. Although speech enhancement (SE) front-ends effectively suppress background noise, they often introduce artifacts that harm recognition. Observation addition (OA) addressed this issue by fusing noisy and SE enhanced speech, improving recognition without modifying the parameters of the SE or ASR models. This paper proposes an intelligibility-guided OA method, where fusion weights are derived from intelligibility estimates obtained directly from the backend ASR. Unlike prior OA methods based on trained neural predictors, the proposed method is training-free, reducing complexity and enhances generalization. Extensive experiments across diverse SE-ASR combinations and datasets demonstrate strong robustness and improvements over existing OA baselines. Additional analyses of intelligibility-guided switching-based alternatives and frame versus utterance-level OA further validate the proposed design.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.