2601.12436v1 Jan 18, 2026 eess.AS

융합 전 정제: 강력한 오디오-비디오 음성 인식을 위한 마스크 없는 음성 향상

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Linzhi Wu
Linzhi Wu
Citations: 8
h-index: 2
Xingyu Zhang
Xingyu Zhang
Citations: 45
h-index: 5
Hao Yuan
Hao Yuan
Citations: 23
h-index: 2
Yakun Zhang
Yakun Zhang
Citations: 202
h-index: 6
Changyan Zheng
Changyan Zheng
Citations: 27
h-index: 4
Liang Xie
Liang Xie
Citations: 43
h-index: 4
Tiejun Liu
Tiejun Liu
Citations: 12
h-index: 2
Erwei Yin
Erwei Yin
Citations: 1,535
h-index: 20

오디오-비디오 음성 인식(AVSR)은 일반적으로 소음 환경에서 음향 신호와 함께 소음 내성 시각 정보를 통합하여 인식 정확도를 향상시킵니다. 그러나 높은 소음 레벨의 오디오 입력은 특징 융합 과정에 부정적인 간섭을 유발할 수 있습니다. 이러한 문제를 완화하기 위해 최근의 AVSR 방법들은 종종 특징 상호 작용 및 융합 과정에서 오디오 노이즈를 필터링하기 위해 마스크 기반 전략을 채택하지만, 이러한 방법은 노이즈와 함께 의미 있는 정보를 제거할 위험이 있습니다. 본 연구에서는 명시적인 노이즈 마스크 생성이 필요 없는, 음성 향상과 결합된 엔드-투-엔드 노이즈-강력한 AVSR 프레임워크를 제안합니다. 이 프레임워크는 Conformer 기반의 병목 융합 모듈을 활용하여 비디오 지원을 통해 노이즈가 많은 오디오 특징을 암묵적으로 정제합니다. 모달 간 중복성을 줄이고 모달 간 상호 작용을 강화함으로써, 본 방법은 음성 의미의 무결성을 유지하여 강력한 인식 성능을 달성합니다. 공개된 LRS3 벤치마크에 대한 실험 결과는 본 방법이 소음 조건에서 기존의 고급 마스크 기반 방법보다 우수한 성능을 보임을 시사합니다.

Original Abstract

Audio-visual speech recognition (AVSR) typically improves recognition accuracy in noisy environments by integrating noise-immune visual cues with audio signals. Nevertheless, high-noise audio inputs are prone to introducing adverse interference into the feature fusion process. To mitigate this, recent AVSR methods often adopt mask-based strategies to filter audio noise during feature interaction and fusion, yet such methods risk discarding semantically relevant information alongside noise. In this work, we propose an end-to-end noise-robust AVSR framework coupled with speech enhancement, eliminating the need for explicit noise mask generation. This framework leverages a Conformer-based bottleneck fusion module to implicitly refine noisy audio features with video assistance. By reducing modality redundancy and enhancing inter-modal interactions, our method preserves speech semantic integrity to achieve robust recognition performance. Experimental evaluations on the public LRS3 benchmark suggest that our method outperforms prior advanced mask-based baselines under noisy conditions.

1 Citations
0 Influential
10 Altmetric
51.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!