AQUA-Bench: 오디오 질의응답에서 정답이 없는 경우를 파악하는 것을 넘어
AQUA-Bench: Beyond Finding Answers to Knowing When There Are None in Audio Question Answering
최근 오디오 정보를 활용하는 대규모 언어 모델의 발전은 오디오 질의응답 분야에서 뛰어난 성능을 보여주고 있습니다. 그러나 기존의 벤치마크는 주로 답변 가능한 질문들을 다루고 있으며, 오디오 데이터로부터 신뢰할 수 있는 답변을 추론할 수 없는 경우라는 중요한 과제를 간과합니다. 이러한 경우는 실제 환경에서 흔히 발생하며, 질문이 오해를 불러일으키거나, 적절하지 않거나, 제공된 정보와 일치하지 않을 수 있습니다. 이러한 문제점을 해결하기 위해, 오디오 질의 불가능성 평가를 위한 벤치마크인 AQUA-Bench를 제안합니다. AQUA-Bench는 세 가지 시나리오를 체계적으로 평가합니다. 첫째, 정답 옵션이 누락된 경우(Absent Answer Detection), 둘째, 선택지들이 질문과 범주적으로 일치하지 않는 경우(Incompatible Answer Set Detection), 셋째, 질문이 오디오와 관련이 없거나 충분한 정보를 제공하지 않는 경우(Incompatible Audio Question Detection)입니다. 이러한 경우를 평가함으로써, AQUA-Bench는 모델의 신뢰성을 엄격하게 측정하고, 더욱 견고하고 신뢰할 수 있는 오디오-언어 시스템 개발을 촉진합니다. 우리의 실험 결과는 모델이 일반적인 답변 가능한 작업에서는 뛰어난 성능을 보이지만, 답변 불가능한 경우에는 상당한 어려움을 겪는다는 것을 보여주며, 이는 현재 오디오-언어 이해 기술의 한계를 시사합니다.
Recent advances in audio-aware large language models have shown strong performance on audio question answering. However, existing benchmarks mainly cover answerable questions and overlook the challenge of unanswerable ones, where no reliable answer can be inferred from the audio. Such cases are common in real-world settings, where questions may be misleading, ill-posed, or incompatible with the information. To address this gap, we present AQUA-Bench, a benchmark for Audio Question Unanswerability Assessment. It systematically evaluates three scenarios: Absent Answer Detection (the correct option is missing), Incompatible Answer Set Detection (choices are categorically mismatched with the question), and Incompatible Audio Question Detection (the question is irrelevant or lacks sufficient grounding in the audio). By assessing these cases, AQUA-Bench offers a rigorous measure of model reliability and promotes the development of audio-language systems that are more robust and trustworthy. Our experiments suggest that while models excel on standard answerable tasks, they often face notable challenges with unanswerable ones, pointing to a blind spot in current audio-language understanding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.