NV-Bench: 감정을 표현하는 텍스트 음성 변환 시스템을 위한 비언어적 음성 합성 벤치마크
NV-Bench: Benchmark of Nonverbal Vocalization Synthesis for Expressive Text-to-Speech Generation
최근 텍스트 음성 변환(TTS) 시스템들이 비언어적 음성 표현(NV)을 점점 더 많이 통합하고 있지만, 이러한 시스템들의 평가는 표준화된 지표와 신뢰할 수 있는 기준 데이터가 부족한 상황입니다. 이러한 문제를 해결하기 위해, 우리는 NV-Bench를 제안합니다. NV-Bench는 비언어적 음성 표현을 단순한 음향적 특징이 아닌, 의사소통 행위로 간주하는 기능적 분류 체계를 기반으로 하는 최초의 벤치마크입니다. NV-Bench는 14가지 비언어적 음성 표현 범주에 걸쳐 균형 있게 구성된 1,651개의 다국어, 실제 환경에서 수집된 발화 데이터와 함께, 각 발화에 대한 인간 참조 오디오 데이터를 포함합니다. 우리는 두 가지 차원의 평가 프로토콜을 도입합니다. (1) 지시 일치성: 제안된 비언어적 문자 오류율(PCER)을 사용하여 제어 가능성을 평가합니다. (2) 음향 충실도: 실제 녹음과의 분포 차이를 측정하여 음향적 현실감을 평가합니다. 우리는 다양한 TTS 모델을 평가하고 두 가지 기준 모델을 개발했습니다. 실험 결과는 우리의 객관적인 지표와 인간의 인지 사이에 강한 상관관계가 있음을 보여주며, 이는 NV-Bench가 표준화된 평가 프레임워크로 자리매김할 수 있음을 시사합니다.
While recent text-to-speech (TTS) systems increasingly integrate nonverbal vocalizations (NVs), their evaluations lack standardized metrics and reliable ground-truth references. To bridge this gap, we propose NV-Bench, the first benchmark grounded in a functional taxonomy that treats NVs as communicative acts rather than acoustic artifacts. NV-Bench comprises 1,651 multi-lingual, in-the-wild utterances with paired human reference audio, balanced across 14 NV categories. We introduce a dual-dimensional evaluation protocol: (1) Instruction Alignment, utilizing the proposed paralinguistic character error rate (PCER) to assess controllability, (2) Acoustic Fidelity, measuring the distributional gap to real recordings to assess acoustic realism. We evaluate diverse TTS models and develop two baselines. Experimental results demonstrate a strong correlation between our objective metrics and human perception, establishing NV-Bench as a standardized evaluation framework.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.