2603.25150v1 Mar 26, 2026 cs.CL

음성 발음 평가 시 음소 시간 정렬 없이 수행하는 방법

Goodness-of-pronunciation without phoneme time alignment

J. H. Wong
J. H. Wong
Citations: 42
h-index: 4
Nancy F. Chen
Nancy F. Chen
Citations: 8
h-index: 2

음성 평가에서, 자동 음성 인식(ASR) 모델은 종종 입력 특징에 대한 시간 경계 및 음소 정보를 계산합니다. 그러나 ASR 학습을 위한 제한된 데이터는 음성 평가를 저자원 언어로 확장하는 데 어려움을 초래합니다. 오픈 소스 약하게 지도되는 모델은 여러 언어에 대한 ASR을 수행할 수 있지만, 이러한 모델은 프레임 단위로 동기화되지 않고 음소 단위가 아니기 때문에 음성 평가를 위한 특징 추출에 어려움이 있습니다. 본 논문에서는 약하게 지도되는 모델과의 특징 추출 호환성 문제를 해결하여 음성 평가를 저자원 언어로 확장하는 데 도움을 주는 방법을 제안합니다. 음소 정보는 ASR 가설을 음소 혼동 네트워크에 매핑하여 계산합니다. 음소 대신 단어 수준의 발음 속도 및 지속 시간을 사용합니다. 음소 및 프레임 수준의 특징을 크로스-어텐션 아키텍처를 사용하여 결합함으로써, 음소 시간 정렬의 필요성을 없앱니다. 제안하는 방법은 영어 speechocean762 데이터셋 및 저자원인 타밀어 데이터셋에서 기존의 프레임 단위 동기화된 특징과 유사한 성능을 보입니다.

Original Abstract

In speech evaluation, an Automatic Speech Recognition (ASR) model often computes time boundaries and phoneme posteriors for input features. However, limited data for ASR training hinders expansion of speech evaluation to low-resource languages. Open-source weakly-supervised models are capable of ASR over many languages, but they are frame-asynchronous and not phonemic, hindering feature extraction for speech evaluation. This paper proposes to overcome incompatibilities for feature extraction with weakly-supervised models, easing expansion of speech evaluation to low-resource languages. Phoneme posteriors are computed by mapping ASR hypotheses to a phoneme confusion network. Word instead of phoneme-level speaking rate and duration are used. Phoneme and frame-level features are combined using a cross-attention architecture, obviating phoneme time alignment. This performs comparably with standard frame-synchronous features on English speechocean762 and low-resource Tamil datasets.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!