2601.04508v1 Jan 08, 2026 cs.CL

WESR: 단어 수준 이벤트-음성 인식의 확장 및 평가

WESR: Scaling and Evaluating Word-level Event-Speech Recognition

Chenchen Yang
Chenchen Yang
Citations: 9
h-index: 1
Liwei Fan
Liwei Fan
Citations: 9
h-index: 1
Zhaoye Fei
Zhaoye Fei
Citations: 736
h-index: 11
Qinyuan Cheng
Qinyuan Cheng
Fudan Universality
Citations: 595
h-index: 14
Shimin Li
Shimin Li
Citations: 282
h-index: 10
Xipeng Qiu
Xipeng Qiu
Citations: 139
h-index: 6
Qian Tu
Qian Tu
Citations: 24
h-index: 2
Kexin Huang
Kexin Huang
Citations: 16
h-index: 2
Botian Jiang
Botian Jiang
Citations: 227
h-index: 5
Dong Zhang
Dong Zhang
Citations: 1,452
h-index: 13
Linqi Yin
Linqi Yin
Citations: 3
h-index: 1

음성은 언어 정보뿐만 아니라 웃음이나 울음과 같은 풍부한 비언어적 음성 이벤트를 전달합니다. 의미 기반 음성 기록(semantic transcription)은 잘 연구되어 있지만, 비언어적 이벤트의 정확한 위치 파악은 중요한 과제임에도 불구하고 아직 충분히 연구되지 않았습니다. 현재의 방법들은 제한적인 범주를 포함하는 불충분한 작업 정의와 모호한 시간 분해능을 가지고 있으며, 또한 표준화된 평가 프레임워크가 부족하여 후속 응용 프로그램 개발을 저해하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 먼저 21가지 음성 이벤트에 대한 정교한 분류 체계를 개발했으며, 이를 독립형(standalone) 이벤트와 음성과 혼합된 연속형(continuous) 이벤트로 새롭게 분류했습니다. 이러한 정교한 분류 체계를 기반으로, 우리는 전문가가 주석을 달은 평가 데이터셋인 WESR-Bench를 구축했습니다. WESR-Bench는 900개 이상의 발화 데이터를 포함하며, ASR 오류와 이벤트 감지 오류를 분리하는 새로운 위치 인식 프로토콜을 사용하여, 독립형 및 연속형 이벤트 모두에 대한 정확한 위치 측정 기능을 제공합니다. 또한, 1,700시간 이상의 음성 데이터 코퍼스를 구축하고, 특수 모델을 학습하여 오픈 소스 음성-언어 모델 및 상용 API보다 뛰어난 성능을 보이면서도 ASR 품질을 유지했습니다. 우리는 WESR이 풍부하고 현실적인 청각 장면 모델링 분야의 미래 연구를 위한 기반 자료로 활용될 것으로 기대합니다.

Original Abstract

Speech conveys not only linguistic information but also rich non-verbal vocal events such as laughing and crying. While semantic transcription is well-studied, the precise localization of non-verbal events remains a critical yet under-explored challenge. Current methods suffer from insufficient task definitions with limited category coverage and ambiguous temporal granularity. They also lack standardized evaluation frameworks, hindering the development of downstream applications. To bridge this gap, we first develop a refined taxonomy of 21 vocal events, with a new categorization into discrete (standalone) versus continuous (mixed with speech) types. Based on the refined taxonomy, we introduce WESR-Bench, an expert-annotated evaluation set (900+ utterances) with a novel position-aware protocol that disentangles ASR errors from event detection, enabling precise localization measurement for both discrete and continuous events. We also build a strong baseline by constructing a 1,700+ hour corpus, and train specialized models, surpassing both open-source audio-language models and commercial APIs while preserving ASR quality. We anticipate that WESR will serve as a foundational resource for future research in modeling rich, real-world auditory scenes.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!