2604.24401v1 Apr 27, 2026 cs.SD

모든 빛나는 것이 오디오가 아니다: 오디오-언어 평가에서 텍스트 사전 지식 및 오디오 의존성에 대한 재고

All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation

Chih-Kai Yang
Chih-Kai Yang
Citations: 331
h-index: 11
Ke-Han Lu
Ke-Han Lu
Citations: 464
h-index: 11
Hung-yi Lee
Hung-yi Lee
Citations: 8
h-index: 2
Leonardo Haw-Yang Foo
Leonardo Haw-Yang Foo
Citations: 0
h-index: 0
Chen-An Li
Chen-An Li
Citations: 130
h-index: 5

대규모 오디오-언어 모델은 음성 및 오디오 벤치마크에서 일관된 성능 향상을 보이지만, 높은 점수가 실제 청각 인지 능력을 반영하지 않을 수 있습니다. 모델이 음향 신호를 처리하지 않고도 질문에 답변할 수 있다면, 해당 벤치마크는 청각 이해도를 측정하는 데 실패하는 것입니다. 본 연구에서는 텍스트 사전 지식(텍스트 및 일반 지식만으로 답변 가능성을 측정)과 오디오 의존성(실제 음향 신호에 대한 의존성을 평가)이라는 두 가지 축을 사용한 진단 프레임워크를 제시합니다. 세 가지 벤치마크에서 8개의 오디오-언어 모델을 평가한 결과, 어떤 오디오 입력도 없는 상태에서도 모델이 전체 오디오 점수의 60-72%를 유지하는 것으로 나타났습니다. 또한, 오디오가 필요한 항목 중에서도 전체 오디오 클립이 필요한 항목은 3.0-4.2%에 불과하며, 대부분의 항목은 국소적인 음향 단편만으로 해결 가능합니다. 이러한 결과는 벤치마크 성능이 강력한 청각 이해도를 의미한다는 가정에 도전하며, 평가의 신뢰성과 벤치마크 설계 개선을 위한 실질적인 지침으로 결론을 내립니다.

Original Abstract

Large Audio-Language Models show consistent performance gains across speech and audio benchmarks, yet high scores may not reflect true auditory perception. If a model can answer questions without processing the acoustic signal, the benchmark fails as a measure of auditory understanding. We present a diagnostic framework using two axes: text prior, which measures answerability from text and general knowledge alone, and audio reliance, which assesses actual dependency on the acoustic signal. Evaluating eight LALMs across three benchmarks, we find that models retain 60-72% of their full audio scores even without any audio input. Moreover, among items that require audio, only 3.0-4.2% need the complete audio clip; the majority can be resolved using localized fragments. These findings challenge the assumption that benchmark performance equals robust audio understanding, and we conclude with practical guidelines for improving evaluation reliability and benchmark design.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!