2409.14666v1 Sep 23, 2024 cs.AI

견고한 음성 평가를 위한 준지도 학습

Semi-supervised Learning For Robust Speech Evaluation

Huayun Zhang
Huayun Zhang
Citations: 114
h-index: 5
J. H. Wong
J. H. Wong
Citations: 42
h-index: 4
Geyu Lin
Geyu Lin
Citations: 236
h-index: 6
Nancy F. Chen
Nancy F. Chen
Citations: 8
h-index: 2

음성 평가는 자동 모델을 사용하여 학습자의 구술 숙련도를 측정합니다. 이러한 모델을 훈련하기 위한 코퍼스는 교사가 채점한 데이터가 제한적일 뿐만 아니라 학생 집단 간 숙련도 수준에 따른 점수 분포가 불균형한 경우가 많아 데이터 희소성 문제를 야기합니다. 따라서 자동 채점은 실제 배포 환경에서 필연적으로 존재하는 과소 대표된 샘플이나 분포 외 샘플(out-of-distribution samples)을 마주했을 때 견고하지 못합니다. 본 논문에서는 주관적 평가 기준을 근사하기 위해 준지도 사전 학습과 객관적 정규화를 활용하여 이러한 문제를 해결할 것을 제안합니다. 특히, 학습자와 참조 데이터의 음성 특성을 정량화하기 위해 정규화된 상호 정보량을 사용합니다. 앵커 모델은 의사 레이블(pseudo labels)을 사용하여 발음의 정확성을 예측하도록 훈련됩니다. 실제 점수(ground-truth)에 대한 예측 오차뿐만 아니라 음성 평가 모델과 앵커 모델이 추정한 두 확률 분포 간의 발산(divergence)을 최소화하기 위해 보간된 손실 함수를 제안합니다. 공개 데이터셋에서 다른 최신 방법론들과 비교했을 때, 이 접근 방식은 전체 테스트셋을 평가할 때 높은 성능을 달성할 뿐만 아니라 서로 다른 숙련도 수준 전반에 걸쳐 가장 고르게 분포된 예측 오차를 보입니다. 또한, 실험 결과를 통해 분포 외 데이터에 대한 모델 정확도 역시 경쟁력 있는 베이스라인 모델들과 비교하여 우수함을 보여줍니다.

Original Abstract

Speech evaluation measures a learners oral proficiency using automatic models. Corpora for training such models often pose sparsity challenges given that there often is limited scored data from teachers, in addition to the score distribution across proficiency levels being often imbalanced among student cohorts. Automatic scoring is thus not robust when faced with under-represented samples or out-of-distribution samples, which inevitably exist in real-world deployment scenarios. This paper proposes to address such challenges by exploiting semi-supervised pre-training and objective regularization to approximate subjective evaluation criteria. In particular, normalized mutual information is used to quantify the speech characteristics from the learner and the reference. An anchor model is trained using pseudo labels to predict the correctness of pronunciation. An interpolated loss function is proposed to minimize not only the prediction error with respect to ground-truth scores but also the divergence between two probability distributions estimated by the speech evaluation model and the anchor model. Compared to other state-of-the-art methods on a public data-set, this approach not only achieves high performance while evaluating the entire test-set as a whole, but also brings the most evenly distributed prediction error across distinct proficiency levels. Furthermore, empirical results show the model accuracy on out-of-distribution data also compares favorably with competitive baselines.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!