2602.23649v1 Feb 27, 2026 cs.SD

AudioCapBench: 소리, 음악, 음성을 포괄하는 오디오 캡션 평가를 위한 신속 평가 벤치마크

AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech

Rithesh Murthy
Rithesh Murthy
Citations: 616
h-index: 9
Roshan Ram
Roshan Ram
Citations: 32
h-index: 2
Akshara Prabhakar
Akshara Prabhakar
Citations: 17
h-index: 2
Shelby Heinecke
Shelby Heinecke
Citations: 1,427
h-index: 18
Caiming
Caiming
Citations: 0
h-index: 0
Xiong
Xiong
Citations: 7
h-index: 1
Silvio Savarese
Silvio Savarese
Citations: 3,228
h-index: 27
Huan Wang
Huan Wang
Citations: 946
h-index: 13
Juntao Tan
Juntao Tan
Citations: 590
h-index: 10
Jielin Qiu
Jielin Qiu
Citations: 53
h-index: 3
Jianguo Zhang
Jianguo Zhang
Citations: 388
h-index: 8
Zixiang Chen
Zixiang Chen
Citations: 8
h-index: 2
Liangwei Yang
Liangwei Yang
Citations: 31
h-index: 3
Ming Zhu
Ming Zhu
Citations: 399
h-index: 8
Hao Chen
Hao Chen
Citations: 72
h-index: 2
Wenting Zhao
Wenting Zhao
Citations: 131
h-index: 6

본 논문에서는 대규모 멀티모달 모델의 오디오 캡션 능력을 평가하기 위한 벤치마크인 AudioCapBench를 소개합니다. AudioCapBench는 환경 소음, 음악, 음성 등 세 가지 고유한 오디오 도메인을 포함하며, 기존 데이터 세트에서 선별된 1,000개의 평가 샘플로 구성되어 있습니다. 우리는 OpenAI와 Google Gemini의 13개 모델을 METEOR, BLEU, ROUGE-L과 같은 참조 기반 지표 및 LLM-as-Judge 프레임워크를 사용하여 평가했습니다. LLM-as-Judge는 예측 결과를 정확성(의미적 정확성), 완전성(참조 콘텐츠의 보완성), 환각(조작된 콘텐츠의 부재)이라는 세 가지 직교적인 차원에서 평가합니다. 실험 결과, Gemini 모델이 전반적인 캡션 품질 측면에서 OpenAI 모델보다 일반적으로 더 우수한 성능을 보였으며, Gemini~3~Pro가 가장 높은 종합 점수(10점 만점에 6.00점)를 기록했습니다. 반면 OpenAI 모델은 환각 현상이 낮은 경향을 보였습니다. 모든 모델은 음성 캡션에는 가장 좋은 성능을 보였고, 음악 캡션에는 가장 낮은 성능을 보였습니다. 본 논문에서는 벤치마크 데이터와 평가 코드를 공개하여 재현 가능한 오디오 이해 연구를 지원하고자 합니다.

Original Abstract

We introduce AudioCapBench, a benchmark for evaluating audio captioning capabilities of large multimodal models. \method covers three distinct audio domains, including environmental sound, music, and speech, with 1,000 curated evaluation samples drawn from established datasets. We evaluate 13 models across two providers (OpenAI, Google Gemini) using both reference-based metrics (METEOR, BLEU, ROUGE-L) and an LLM-as-Judge framework that scores predictions on three orthogonal dimensions: \textit{accuracy} (semantic correctness), \textit{completeness} (coverage of reference content), and \textit{hallucination} (absence of fabricated content). Our results reveal that Gemini models generally outperform OpenAI models on overall captioning quality, with Gemini~3~Pro achieving the highest overall score (6.00/10), while OpenAI models exhibit lower hallucination rates. All models perform best on speech captioning and worst on music captioning. We release the benchmark as well as evaluation code to facilitate reproducible audio understanding research.

0 Citations
0 Influential
13.5 Altmetric
67.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!