Emotion-LLaMAv2 및 MMEVerse: 다중 모드 감정 이해를 위한 새로운 프레임워크 및 벤치마크
Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding
다중 모드 신호로부터 인간의 감정을 이해하는 것은 감정 컴퓨팅 및 인간-로봇 상호 작용 분야에서 중요한 과제입니다. 다중 모드 대규모 언어 모델(MLLM)은 일반적인 시각-언어 작업에서 뛰어난 성능을 보였지만, 감정 추론 능력은 여전히 제한적입니다. 현재 이 분야는 고품질의 서술적 감정 주석이 포함된 대규모 데이터셋이 부족하고, 평가를 위한 표준화된 벤치마크가 결여되어 있습니다. 저희의 초기 프레임워크인 Emotion-LLaMA는 감정 추론을 위한 지시형 다중 모드 학습을 개척했지만, 명시적인 얼굴 감지기, 암묵적인 융합 전략, 그리고 제한된 규모의 저품질 훈련 데이터로 인해 제약이 있었습니다. 이러한 한계를 극복하기 위해, 저희는 Emotion-LLaMAv2와 MMEVerse 벤치마크를 제시하며, 감정 인식 및 추론을 위한 엔드투엔드 파이프라인과 표준화된 평가 환경을 구축했습니다. Emotion-LLaMAv2는 세 가지 주요 발전을 제시합니다. 첫째, 엔드투엔드 다중 뷰 인코더는 외부 얼굴 감지를 제거하고, 풍부한 공간적 및 시간적 다중 뷰 토큰을 통해 미묘한 감정적 신호를 포착합니다. 둘째, Conv Attention 사전 융합 모듈은 LLM의 핵심 구조 외부에서 동시적인 로컬 및 글로벌 다중 모드 특징 상호 작용을 가능하게 합니다. 셋째, LLaMA2 핵심 구조 내에서 인지-지각 커리큘럼 지시형 튜닝 방식을 통해 감정 인식과 자유 형식의 감정 추론을 통합합니다. 대규모 훈련 및 재현 가능한 평가를 지원하기 위해, MMEVerse는 공적으로 제공되는 12개의 감정 데이터셋(IEMOCAP, MELD, DFEW, MAFW 등)을 통합하여 단일화된 다중 모드 지시 형식으로 구성합니다. 이 데이터는 Qwen2 Audio, Qwen2.5 VL, 및 GPT 4o를 포함하는 다중 에이전트 파이프라인을 통해 재주석 처리되어, 18개의 평가 벤치마크에서 13만 개의 훈련 클립과 3만 6천 개의 테스트 클립을 생성합니다.
Understanding human emotions from multimodal signals poses a significant challenge in affective computing and human-robot interaction. While multimodal large language models (MLLMs) have excelled in general vision-language tasks, their capabilities in emotional reasoning remain limited. The field currently suffers from a scarcity of large-scale datasets with high-quality, descriptive emotion annotations and lacks standardized benchmarks for evaluation. Our preliminary framework, Emotion-LLaMA, pioneered instruction-tuned multimodal learning for emotion reasoning but was restricted by explicit face detectors, implicit fusion strategies, and low-quality training data with limited scale. To address these limitations, we present Emotion-LLaMAv2 and the MMEVerse benchmark, establishing an end-to-end pipeline together with a standardized evaluation setting for emotion recognition and reasoning. Emotion-LLaMAv2 introduces three key advances. First, an end-to-end multiview encoder eliminates external face detection and captures nuanced emotional cues via richer spatial and temporal multiview tokens. Second, a Conv Attention pre-fusion module is designed to enable simultaneous local and global multimodal feature interactions external to the LLM backbone. Third, a perception-to-cognition curriculum instruction tuning scheme within the LLaMA2 backbone unifies emotion recognition and free-form emotion reasoning. To support large-scale training and reproducible evaluation, MMEVerse aggregates twelve publicly available emotion datasets, including IEMOCAP, MELD, DFEW, and MAFW, into a unified multimodal instruction format. The data are re-annotated via a multi-agent pipeline involving Qwen2 Audio, Qwen2.5 VL, and GPT 4o, producing 130k training clips and 36k testing clips across 18 evaluation benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.