대규모 오디오-언어 모델에서 모호한 감정 예측을 위한 추론 분리 연구
Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
음성 감정 인식은 다양한 응용 분야에서 중요한 역할을 합니다. 그러나 기존의 대부분의 방법은 단일 감정 레이블을 예측하여 인간 감정 표현의 본질적인 모호성을 간과합니다. 최근 개발된 대규모 오디오-언어 모델은 더욱 풍부한 결과를 생성할 가능성을 보여주지만, 이러한 모델의 모호한 감정 이해를 위한 추론 능력은 여전히 제한적입니다. 본 연구에서는 모호한 감정 인식을 분포 기반 추론 문제로 재정의하고, 대규모 오디오-언어 모델에서 모호성 인지 추론에 대한 체계적인 연구를 처음으로 제시합니다. 저희의 프레임워크는 두 가지 상호 보완적인 구성 요소로 이루어져 있습니다. 첫째, 예측 결과를 인간의 지각 분포와 일치시키는 모호성 인지 목표 함수를 사용하며, 둘째, 감정 단서를 기반으로 추론을 유도하는 구조화된 모호성 인지 연쇄적 사고 지도 방식을 사용합니다. IEMOCAP 및 CREMA-D 데이터셋에 대한 실험 결과, SFT, DPO 및 GRPO 학습 전략을 모두 사용하여 일관된 성능 향상을 확인할 수 있었습니다.
Speech emotion recognition plays an important role in various applications. However, most existing approaches predict a single emotion label, oversimplifying the inherently ambiguous nature of human emotional expression. Recent large audio-language models show promise in generating richer outputs, but their reasoning ability for ambiguous emotional understanding remains limited. In this work, we reformulate ambiguous emotion recognition as a distributional reasoning problem and present the first systematic study of ambiguity-aware reasoning in LALMs. Our framework comprises two complementary components: an ambiguity-aware objective that aligns predictions with human perceptual distributions, and a structured ambiguity-aware chain-of-thought supervision that guides reasoning over emotional cues. Experiments on IEMOCAP and CREMA-D demonstrate consistent improvements across SFT, DPO, and GRPO training strategies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.