HalluAudio: 대규모 오디오-언어 모델의 환각 탐지를 위한 종합적인 벤치마크
HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models
최근 대규모 오디오-언어 모델(LALM)은 다양한 오디오 관련 작업에서 뛰어난 성능을 보여주고 있습니다. 그러나 모델이 의미적으로 부정확하거나 음향적으로 뒷받침되지 않는 응답을 생성하는 '환각' 현상은 오디오 분야에서 아직 충분히 연구되지 않았습니다. 기존의 환각 벤치마크는 주로 텍스트나 이미지에 초점을 맞추고 있으며, 오디오 관련 연구는 규모, 모달리티 범위 및 진단 깊이 측면에서 제한적입니다. 따라서 본 연구에서는 음성, 환경 소리 및 음악에 걸쳐 환각을 평가하기 위한 최초의 대규모 벤치마크인 HalluAudio를 소개합니다. HalluAudio는 5,000쌍 이상의 인간 검증된 질의응답 쌍으로 구성되어 있으며, 이진 판단, 다중 선택 추론, 속성 검증 및 개방형 질의응답 등 다양한 작업 유형을 포함합니다. 환각을 체계적으로 유도하기 위해 적대적인 프롬프트와 혼합 오디오 조건을 설계했습니다. 정확도 외에도, 우리의 평가 프로토콜은 환각 발생률, 예/아니오 편향, 오류 유형 분석 및 거부율을 측정하여 LALM의 실패 모드에 대한 세밀한 분석을 가능하게 합니다. 우리는 다양한 오픈 소스 및 독점 모델을 벤치마킹하여 음성, 소리 및 음악에 걸친 최초의 대규모 비교 결과를 제공합니다. 우리의 결과는 음향적 기반, 시간적 추론 및 음악 속성 이해 측면에서 상당한 결함을 드러내며, 신뢰할 수 있고 견고한 LALM의 필요성을 강조합니다.
Large Audio-Language Models (LALMs) have recently achieved strong performance across various audio-centric tasks. However, hallucination, where models generate responses that are semantically incorrect or acoustically unsupported, remains largely underexplored in the audio domain. Existing hallucination benchmarks mainly focus on text or vision, while the few audio-oriented studies are limited in scale, modality coverage, and diagnostic depth. We therefore introduce HalluAudio, the first large-scale benchmark for evaluating hallucinations across speech, environmental sound, and music. HalluAudio comprises over 5K human-verified QA pairs and spans diverse task types, including binary judgments, multi-choice reasoning, attribute verification, and open-ended QA. To systematically induce hallucinations, we design adversarial prompts and mixed-audio conditions. Beyond accuracy, our evaluation protocol measures hallucination rate, yes/no bias, error-type analysis, and refusal rate, enabling a fine-grained analysis of LALM failure modes. We benchmark a broad range of open-source and proprietary models, providing the first large-scale comparison across speech, sound, and music. Our results reveal significant deficiencies in acoustic grounding, temporal reasoning, and music attribute understanding, underscoring the need for reliable and robust LALMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.