불확실성을 헤쳐나가는 여정: 오디오 인식 능력을 갖춘 대규모 언어 모델의 불확실성 추정 연구
Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models
최근 개발된 오디오 인식 능력을 갖춘 대규모 언어 모델(ALLM)은 다양한 오디오 이해 및 추론 작업에서 뛰어난 성능을 보이지만, 여전히 환각적인 내용이나 지나치게 확신에 찬 결과를 자주 생성합니다. 불확실성 추정은 텍스트 기반 대규모 언어 모델에서 광범위하게 연구되어 왔지만, 오디오 정보를 활용하는 ALLM에서는 오디오 기반 생성 과정에서 발생하는 인지적 모호성 및 다중 모드 연관과 같은 추가적인 어려움으로 인해 아직까지는 제대로 연구되지 않았습니다. 본 연구에서는 ALLM에서 불확실성 추정에 대한 최초의 체계적인 실증 연구를 제시합니다. 예측 엔트로피, 길이 정규화 엔트로피, 의미 엔트로피, 이산 의미 엔트로피, P(True)를 포함한 5가지 대표적인 방법을 다양한 모델과 평가 환경에서 벤치마킹하며, 일반적인 오디오 이해, 추론, 환각 감지, 그리고 답변 불가능한 질문 응답을 포함한 다양한 측면을 평가합니다. 연구 결과, 의미 수준 및 검증 기반 방법이 일반적인 오디오 추론 벤치마크에서 토큰 수준의 기본 방법보다 일관되게 우수한 성능을 보였습니다. 또한, 신뢰도 중심 벤치마크에서는 불확실성 추정 방법의 상대적인 효과가 모델 및 벤치마크에 따라 크게 달라지는 것으로 나타났습니다. 이는 일반적인 추론 환경에서 얻은 결론이 환각 및 답변 불가능한 질문 시나리오로 직접적으로 적용될 수 없음을 시사합니다. 더 나아가, 본 연구에서는 불확실성을 기반으로 한 적응적 추론을 잠재적인 응용 분야로 탐구합니다. 본 연구가 신뢰성 있고 불확실성을 고려한 오디오-언어 시스템에 대한 향후 연구의 기초가 되기를 바랍니다.
Recent audio-aware large language models (ALLMs) have demonstrated strong capabilities across diverse audio understanding and reasoning tasks, but they still frequently produce hallucinated or overly confident outputs. While uncertainty estimation has been extensively studied in text-only LLMs, it remains largely unexplored for ALLMs, where audio-conditioned generation introduces additional challenges such as perceptual ambiguity and cross-modal grounding. In this work, we present the first systematic empirical study of uncertainty estimation in ALLMs. We benchmark five representative methods, including predictive entropy, length-normalized entropy, semantic entropy, discrete semantic entropy, and P(True), across multiple models and diverse evaluation settings spanning general audio understanding, reasoning, hallucination detection, and unanswerable question answering. Our results reveal two key findings. First, semantic-level and verification-based methods consistently outperform token-level baselines on general audio reasoning benchmarks. Second, on trustworthiness-oriented benchmarks, the relative effectiveness of uncertainty methods becomes notably more model- and benchmark-dependent, indicating that conclusions drawn from general reasoning settings do not straightforwardly transfer to hallucination and unanswerable-question scenarios. We further explore uncertainty-based adaptive inference as a potential downstream application. We hope this study provides a foundation for future research on reliable, uncertainty-aware audio-language systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.