2601.00935v1 Jan 02, 2026 eess.AS

TTS 데이터 증강을 이용한 코드 스위칭 음성 인식 성능 향상

Improving Code-Switching Speech Recognition with TTS Data Augmentation

Chng Eng Siong
Chng Eng Siong
Citations: 447
h-index: 13
Yue Heng Yeo
Yue Heng Yeo
Citations: 7
h-index: 2
Yuchen Hu
Yuchen Hu
Citations: 6
h-index: 2
Shreyas Gopal
Shreyas Gopal
Citations: 4
h-index: 1
Hexin Liu
Hexin Liu
Citations: 23
h-index: 3
Yizhou Peng
Yizhou Peng
College of Computing and Data Science, Nanyang Technological University
Citations: 126
h-index: 6

대화형 코드 스위칭 음성에 대한 자동 음성 인식(ASR)은 현실적이고 고품질의 레이블이 지정된 음성 데이터의 부족으로 인해 여전히 어려운 과제입니다. 본 논문에서는 다국어 텍스트 음성 변환(TTS) 모델을 효과적인 데이터 증강 기술로 활용하여 이러한 문제를 해결하고자 합니다. 구체적으로, SEAME 데이터셋을 기반으로 다국어 CosyVoice2 TTS 모델을 미세 조정하여 합성된 중국어-영어 대화형 코드 스위칭 음성을 생성함으로써, 사용 가능한 학습 데이터의 양과 화자 다양성을 크게 늘립니다. 실험 결과, 실제 음성에 합성 음성을 추가하는 것이 DevMan 데이터셋에서 혼합 오류율(MER)을 12.1%에서 10.1%로, DevSGE 데이터셋에서 17.8%에서 16.0%로 감소시켜 일관된 성능 향상을 가져옴을 보여줍니다. 이러한 결과는 다국어 TTS가 리소스가 부족한 대화형 코드 스위칭 환경에서 ASR의 견고성을 향상시키는 효과적이고 실용적인 도구임을 확인합니다.

Original Abstract

Automatic speech recognition (ASR) for conversational code-switching speech remains challenging due to the scarcity of realistic, high-quality labeled speech data. This paper explores multilingual text-to-speech (TTS) models as an effective data augmentation technique to address this shortage. Specifically, we fine-tune the multilingual CosyVoice2 TTS model on the SEAME dataset to generate synthetic conversational Chinese-English code-switching speech, significantly increasing the quantity and speaker diversity of available training data. Our experiments demonstrate that augmenting real speech with synthetic speech reduces the mixed error rate (MER) from 12.1 percent to 10.1 percent on DevMan and from 17.8 percent to 16.0 percent on DevSGE, indicating consistent performance gains. These results confirm that multilingual TTS is an effective and practical tool for enhancing ASR robustness in low-resource conversational code-switching scenarios.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!