2603.21078v1 Mar 22, 2026 cs.CL

신경망 TTS 시스템이 자음 유발 음높이 변화를 모델링하는 능력 평가

Assessing the Ability of Neural TTS Systems to Model Consonant-Induced F0 Perturbation

Siwei Lyu
Siwei Lyu
Citations: 39
h-index: 2
Tianle Yang
Tianle Yang
Citations: 14
h-index: 2
Chengzhe Sun
Chengzhe Sun
Citations: 189
h-index: 5
Philip Rose
Philip Rose
Citations: 15
h-index: 2
Cassandra L. Jacobs
Cassandra L. Jacobs
Citations: 8
h-index: 2

본 연구는 신경망 TTS 모델이 자음으로 인해 발생하는 음높이 변화(f0 perturbation)를 얼마나 잘 재현하는지 평가하기 위한 세분화된 음운론적 탐색 프레임워크를 제안합니다. Tacotron 2와 FastSpeech 2 모델을 동일한 음성 데이터(LJ Speech)로 훈련하고, 수천 개의 단어에 대해 합성 음성과 자연스러운 음성 구현을 비교하며, 어휘 빈도에 따라 계층화하여 분석했습니다. 이러한 통제된 분석을 통해 다양한 최신 TTS 시스템에 대한 대규모 평가를 진행했습니다. 결과는 고빈도 단어에 대해서는 정확한 재현성을 보였지만, 저빈도 단어에 대해서는 성능이 저조한 것으로 나타났습니다. 이는 분석된 TTS 아키텍처가 추상적인 세분화된 음운론적 인코딩보다는 어휘 수준의 암기에 더 의존한다는 것을 시사합니다. 이러한 결과는 기존 데이터에 대한 음운론적 세부 사항의 일반화 능력이 제한적임을 보여주며, 향후 TTS 평가 방법 개발에 유용한 언어학적 지식을 제공하는 진단 프레임워크로서 활용될 수 있습니다. 또한, 이는 합성 음성의 해석 가능성과 진정성 평가에 중요한 의미를 갖습니다.

Original Abstract

This study proposes a segmental-level prosodic probing framework to evaluate neural TTS models' ability to reproduce consonant-induced f0 perturbation, a fine-grained segmental-prosodic effect that reflects local articulatory mechanisms. We compare synthetic and natural speech realizations for thousands of words, stratified by lexical frequency, using Tacotron 2 and FastSpeech 2 trained on the same speech corpus (LJ Speech). These controlled analyses are then complemented by a large-scale evaluation spanning multiple advanced TTS systems. Results show accurate reproduction for high-frequency words but poor generalization to low-frequency items, suggesting that the examined TTS architectures rely more on lexical-level memorization than on abstract segmental-prosodic encoding. This finding highlights a limitation in such TTS systems' ability to generalize prosodic detail beyond seen data. The proposed probe offers a linguistically informed diagnostic framework that may inform future TTS evaluation methods, and has implications for interpretability and authenticity assessment in synthetic speech.

2 Citations
0 Influential
2.5 Altmetric
14.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!