2602.12249v1 Feb 12, 2026 cs.AI

"죄송합니다, 잘 못 들었습니다": 음성 모델이 가장 중요한 정보를 놓치는 양상

"Sorry, I Didn't Catch That": How Speech Models Miss What Matters Most

Martijn Bartelds
Martijn Bartelds
Citations: 214
h-index: 8
Federico Bianchi
Federico Bianchi
Citations: 438
h-index: 9
James Zou
James Zou
Citations: 185
h-index: 5
Kaitlyn Zhou
Kaitlyn Zhou
Citations: 44
h-index: 3

음성 인식 시스템들이 표준 벤치마크에서 낮은 단어 오류율을 달성하고 있음에도 불구하고, 실제 환경에서의 짧지만 결정적인 발화(high-stakes utterances)에 대해서는 종종 실패하곤 한다. 본 연구에서는 미국 거주 참가자들이 말하는 미국 거리명 전사라는 중요한 작업을 통해 이러한 실패 양상을 분석했다. 다양한 언어 배경을 가진 미국 화자들의 녹음 데이터를 사용하여 OpenAI, Deepgram, Google, Microsoft의 15개 모델을 평가한 결과, 평균 44%의 전사 오류율을 확인했다. 전사 실패가 지리적 위치 파악에 미치는 실질적 영향을 정량화한 결과, 오전사는 모든 화자에게 체계적인 오류를 일으키지만, 특히 영어가 모국어가 아닌 화자의 경우 경로 탐색 거리 오류가 영어 원어민 화자에 비해 두 배 더 큰 것으로 나타났다. 이러한 피해를 완화하기 위해, 우리는 오픈 소스 텍스트-음성 변환(TTS) 모델을 활용하여 개체명(named entities)에 대한 다양한 발음을 생성하는 합성 데이터 생성 접근법을 도입했다. 1,000개 미만의 합성 샘플로 미세 조정을 수행한 결과, 영어가 모국어가 아닌 화자에 대한 거리명 전사 정확도가 기본 모델 대비 60% 가까이 향상되었다. 본 연구 결과는 음성 시스템의 벤치마크 성능과 실제 신뢰성 사이의 중대한 격차를 강조하며, 중요도가 높은 전사 오류를 줄일 수 있는 간단하고 확장 가능한 해결책을 제시한다.

Original Abstract

Despite speech recognition systems achieving low word error rates on standard benchmarks, they often fail on short, high-stakes utterances in real-world deployments. Here, we study this failure mode in a high-stakes task: the transcription of U.S. street names as spoken by U.S. participants. We evaluate 15 models from OpenAI, Deepgram, Google, and Microsoft on recordings from linguistically diverse U.S. speakers and find an average transcription error rate of 44%. We quantify the downstream impact of failed transcriptions by geographic locations and show that mis-transcriptions systematically cause errors for all speakers, but that routing distance errors are twice as large for non-English primary speakers compared to English primary speakers. To mitigate this harm, we introduce a synthetic data generation approach that produces diverse pronunciations of named entities using open-source text-to-speech models. Fine-tuning with less than 1,000 synthetic samples improves street name transcription accuracy by nearly 60% (relative to base models) for non-English primary speakers. Our results highlight a critical gap between benchmark performance and real-world reliability in speech systems and demonstrate a simple, scalable path to reducing high-stakes transcription errors.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!