2601.01373v1 Jan 04, 2026 cs.SD

UltraEval-Audio: 오디오 기반 모델의 종합적인 평가를 위한 통합 프레임워크

UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models

Biyuan Lin
Biyuan Lin
Citations: 56
h-index: 2
Qundong Shi
Qundong Shi
Citations: 30
h-index: 1
Jie Zhou
Jie Zhou
Citations: 1,693
h-index: 6
Junbo Cui
Junbo Cui
Citations: 1,460
h-index: 6
Guoyang Zeng
Guoyang Zeng
Citations: 11
h-index: 2
Yixuan Zhou
Yixuan Zhou
Citations: 7
h-index: 1
Ziyang Wang
Ziyang Wang
Citations: 29
h-index: 2
Xin Liu
Xin Liu
Citations: 11
h-index: 2
Zhengda Luo
Zhengda Luo
Citations: 15
h-index: 2
Yudong Wang
Yudong Wang
Citations: 0
h-index: 0
Zhiyuan Liu
Zhiyuan Liu
Citations: 57
h-index: 4

GPT-4o의 등장 이후 오디오 기반 모델 개발이 빠르게 진행되고 있지만, 특히 오디오 생성 분야에서 종합적인 평가 부족은 추가적인 발전의 중요한 걸림돌이 되고 있습니다. 현재 오디오 평가는 다음과 같은 세 가지 주요 과제를 안고 있습니다. (1) 오디오 평가에는 통일된 프레임워크가 부족하며, 데이터셋과 코드가 여러 곳에 분산되어 있어 공정하고 효율적인 모델 간 비교를 어렵게 만듭니다. (2) 오디오 기반 모델의 핵심 구성 요소인 오디오 코덱은 널리 인정받고 포괄적인 평가 방법론이 부족합니다. (3) 기존 음성 벤치마크는 영어에 크게 의존하고 있어, 모델의 중국어 성능을 객관적으로 평가하기 어렵습니다. 이러한 문제점을 해결하기 위해, 우리는 오디오 이해 및 생성 작업을 위한 통합 평가 프레임워크인 UltraEval-Audio를 제안합니다. UltraEval-Audio는 모듈식 아키텍처를 특징으로 하며, 10개 언어와 14개의 주요 작업 범주를 지원하고, 24개의 주요 모델과 36개의 권위 있는 벤치마크를 원활하게 통합합니다. 연구 효율성을 높이기 위해, 이 프레임워크는 단일 명령으로 평가를 수행할 수 있는 기능을 제공하며, 실시간 공개 리더보드를 함께 제공합니다. 두 번째 과제인 오디오 코덱 평가를 위해, 우리는 의미 정확성, 음색 충실도, 음향 품질의 세 가지 핵심 측면을 평가하는 새로운 종합적인 평가 방식을 채택했습니다. 세 번째 과제인 중국어 평가를 위해, 중국어 지식 숙련도와 언어 유창성을 평가하기 위한 새로운 벤치마크인 SpeechCMMLU와 SpeechHSK를 제안합니다. 우리는 UltraEval-Audio가 학계와 산업계 모두에게 오디오 모델을 비교할 수 있는 투명하고 효율적이며 공정한 플랫폼을 제공할 수 있기를 바랍니다. 저희의 코드, 벤치마크 및 리더보드는 https://github.com/OpenBMB/UltraEval-Audio 에서 확인할 수 있습니다.

Original Abstract

The development of audio foundation models has accelerated rapidly since the emergence of GPT-4o. However, the lack of comprehensive evaluation has become a critical bottleneck for further progress in the field, particularly in audio generation. Current audio evaluation faces three major challenges: (1) audio evaluation lacks a unified framework, with datasets and code scattered across various sources, hindering fair and efficient cross-model comparison;(2) audio codecs, as a key component of audio foundation models, lack a widely accepted and holistic evaluation methodology; (3) existing speech benchmarks are heavily reliant on English, making it challenging to objectively assess models' performance on Chinese. To address the first issue, we introduce UltraEval-Audio, a unified evaluation framework for audio foundation models, specifically designed for both audio understanding and generation tasks. UltraEval-Audio features a modular architecture, supporting 10 languages and 14 core task categories, while seamlessly integrating 24 mainstream models and 36 authoritative benchmarks. To enhance research efficiency, the framework provides a one-command evaluation feature, accompanied by real-time public leaderboards. For the second challenge, UltraEval-Audio adopts a novel comprehensive evaluation scheme for audio codecs, evaluating performance across three key dimensions: semantic accuracy, timbre fidelity, and acoustic quality. To address the third issue, we propose two new Chinese benchmarks, SpeechCMMLU and SpeechHSK, designed to assess Chinese knowledge proficiency and language fluency. We wish that UltraEval-Audio will provide both academia and industry with a transparent, efficient, and fair platform for comparison of audio models. Our code, benchmarks, and leaderboards are available at https://github.com/OpenBMB/UltraEval-Audio.

0 Citations
0 Influential
51.120087530937 Altmetric
255.6 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!