융합 전 정제: 강력한 오디오-비디오 음성 인식을 위한 마스크 없는 음성 향상
Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition
오디오-비디오 음성 인식(AVSR)은 일반적으로 소음 환경에서 음향 신호와 함께 소음 내성 시각 정보를 통합하여 인식 정확도를 향상시킵니다. 그러나 높은 소음 레벨의 오디오 입력은 특징 융합 과정에 부정적인 간섭을 유발할 수 있습니다. 이러한 문제를 완화하기 위해 최근의 AVSR 방법들은 종종 특징 상호 작용 및 융합 과정에서 오디오 노이즈를 필터링하기 위해 마스크 기반 전략을 채택하지만, 이러한 방법은 노이즈와 함께 의미 있는 정보를 제거할 위험이 있습니다. 본 연구에서는 명시적인 노이즈 마스크 생성이 필요 없는, 음성 향상과 결합된 엔드-투-엔드 노이즈-강력한 AVSR 프레임워크를 제안합니다. 이 프레임워크는 Conformer 기반의 병목 융합 모듈을 활용하여 비디오 지원을 통해 노이즈가 많은 오디오 특징을 암묵적으로 정제합니다. 모달 간 중복성을 줄이고 모달 간 상호 작용을 강화함으로써, 본 방법은 음성 의미의 무결성을 유지하여 강력한 인식 성능을 달성합니다. 공개된 LRS3 벤치마크에 대한 실험 결과는 본 방법이 소음 조건에서 기존의 고급 마스크 기반 방법보다 우수한 성능을 보임을 시사합니다.
Audio-visual speech recognition (AVSR) typically improves recognition accuracy in noisy environments by integrating noise-immune visual cues with audio signals. Nevertheless, high-noise audio inputs are prone to introducing adverse interference into the feature fusion process. To mitigate this, recent AVSR methods often adopt mask-based strategies to filter audio noise during feature interaction and fusion, yet such methods risk discarding semantically relevant information alongside noise. In this work, we propose an end-to-end noise-robust AVSR framework coupled with speech enhancement, eliminating the need for explicit noise mask generation. This framework leverages a Conformer-based bottleneck fusion module to implicitly refine noisy audio features with video assistance. By reducing modality redundancy and enhancing inter-modal interactions, our method preserves speech semantic integrity to achieve robust recognition performance. Experimental evaluations on the public LRS3 benchmark suggest that our method outperforms prior advanced mask-based baselines under noisy conditions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.