AudioCapBench: 소리, 음악, 음성을 포괄하는 오디오 캡션 평가를 위한 신속 평가 벤치마크
AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech
본 논문에서는 대규모 멀티모달 모델의 오디오 캡션 능력을 평가하기 위한 벤치마크인 AudioCapBench를 소개합니다. AudioCapBench는 환경 소음, 음악, 음성 등 세 가지 고유한 오디오 도메인을 포함하며, 기존 데이터 세트에서 선별된 1,000개의 평가 샘플로 구성되어 있습니다. 우리는 OpenAI와 Google Gemini의 13개 모델을 METEOR, BLEU, ROUGE-L과 같은 참조 기반 지표 및 LLM-as-Judge 프레임워크를 사용하여 평가했습니다. LLM-as-Judge는 예측 결과를 정확성(의미적 정확성), 완전성(참조 콘텐츠의 보완성), 환각(조작된 콘텐츠의 부재)이라는 세 가지 직교적인 차원에서 평가합니다. 실험 결과, Gemini 모델이 전반적인 캡션 품질 측면에서 OpenAI 모델보다 일반적으로 더 우수한 성능을 보였으며, Gemini~3~Pro가 가장 높은 종합 점수(10점 만점에 6.00점)를 기록했습니다. 반면 OpenAI 모델은 환각 현상이 낮은 경향을 보였습니다. 모든 모델은 음성 캡션에는 가장 좋은 성능을 보였고, 음악 캡션에는 가장 낮은 성능을 보였습니다. 본 논문에서는 벤치마크 데이터와 평가 코드를 공개하여 재현 가능한 오디오 이해 연구를 지원하고자 합니다.
We introduce AudioCapBench, a benchmark for evaluating audio captioning capabilities of large multimodal models. \method covers three distinct audio domains, including environmental sound, music, and speech, with 1,000 curated evaluation samples drawn from established datasets. We evaluate 13 models across two providers (OpenAI, Google Gemini) using both reference-based metrics (METEOR, BLEU, ROUGE-L) and an LLM-as-Judge framework that scores predictions on three orthogonal dimensions: \textit{accuracy} (semantic correctness), \textit{completeness} (coverage of reference content), and \textit{hallucination} (absence of fabricated content). Our results reveal that Gemini models generally outperform OpenAI models on overall captioning quality, with Gemini~3~Pro achieving the highest overall score (6.00/10), while OpenAI models exhibit lower hallucination rates. All models perform best on speech captioning and worst on music captioning. We release the benchmark as well as evaluation code to facilitate reproducible audio understanding research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.