2604.23348v1 Apr 25, 2026 cs.CV

EmoTrans: 다중 모드 대규모 언어 모델에서 감정 변화를 이해하고 추론하며 예측하기 위한 벤치마크

EmoTrans: A Benchmark for Understanding, Reasoning, and Predicting Emotion Transitions in Multimodal LLMs

Tengjin Weng
Tengjin Weng
Citations: 21
h-index: 2
Laizhong Cui
Laizhong Cui
Citations: 51
h-index: 4
Zebang Cheng
Zebang Cheng
Citations: 440
h-index: 9
He Hu
He Hu
Citations: 70
h-index: 4
Yu Wang
Yu Wang
Citations: 27
h-index: 1
Jiacheng Luo
Jiacheng Luo
Citations: 135
h-index: 4
Bjorn W. Schuller
Bjorn W. Schuller
Citations: 126
h-index: 5
Zheng Lian
Zheng Lian
Citations: 139
h-index: 4

최근의 다중 모드 대규모 언어 모델(MLLM)은 인지, 추론 및 생성 능력에서 뛰어난 성능을 보이며, 소셜 로봇 및 인간-컴퓨터 상호작용과 같은 응용 분야에서 널리 사용되고 있습니다. 이러한 응용 분야에서는 인간의 감정을 이해하는 것이 필수적입니다. 그러나 기존 벤치마크는 주로 감정 이해를 정적인 인식 문제로 규정하고 있으며, 현재의 MLLM이 다양한 사회적 맥락에서 변화하고, 상태 간에 이동하며, 전개되는 역동적인 과정으로서 감정을 이해할 수 있는지에 대한 명확한 답을 제공하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 다중 모드 비디오에서 감정 역학 이해를 평가하기 위한 벤치마크인 EmoTrans를 제시합니다. EmoTrans는 12가지의 실제 시나리오를 다루는 1,000개의 신중하게 수집되고 수동으로 주석이 달린 비디오 클립으로 구성되어 있으며, 더욱 세밀한 평가를 위해 3,000개 이상의 작업별 질문-답변(QA) 쌍을 제공합니다. 이 벤치마크는 감정 변화 감지(ECD), 감정 상태 식별(ESI), 감정 변화 추론(ETR), 그리고 다음 감정 예측(NEP)의 네 가지 작업을 도입하여, 거칠게 정의된 감지부터 더 깊은 추론 및 예측에 이르는 점진적인 평가 프레임워크를 구성합니다. EmoTrans를 사용하여 18개의 최첨단 MLLM을 종합적으로 평가한 결과, 두 가지 주요 결과를 얻었습니다. 첫째, 현재의 MLLM은 거칠게 정의된 감정 변화 감지에서 상대적으로 더 나은 성능을 보이지만, 여전히 세밀한 감정 역학 모델링에는 어려움을 겪고 있습니다. 둘째, 사회적으로 복잡한 환경, 특히 다인 시나리오는 여전히 상당한 어려움을 야기하며, 추론에 중점을 둔 모델이 항상 명확한 성능 향상을 가져오는 것은 아닙니다. 향후 연구를 지원하기 위해, 벤치마크, 평가 프로토콜 및 코드를 https://github.com/Emo-gml/EmoTrans 에서 공개적으로 제공합니다.

Original Abstract

Recent multimodal large language models (MLLMs) have shown strong capabilities in perception, reasoning, and generation, and are increasingly used in applications such as social robots and human-computer interaction, where understanding human emotions is essential. However, existing benchmarks mainly formulate emotion understanding as a static recognition problem, leaving it largely unclear whether current MLLMs can understand emotion as a dynamic process that evolves, shifts between states, and unfolds across diverse social contexts. To bridge this gap, we present EmoTrans, a benchmark for evaluating emotion dynamics understanding in multimodal videos. EmoTrans contains 1,000 carefully collected and manually annotated video clips, covering 12 real-world scenarios, and further provides over 3,000 task-specific question-answer (QA) pairs for fine-grained evaluation. The benchmark introduces four tasks, namely Emotion Change Detection (ECD), Emotion State Identification (ESI), Emotion Transition Reasoning (ETR), and Next Emotion Prediction (NEP), forming a progressive evaluation framework from coarse-grained detection to deeper reasoning and prediction. We conduct a comprehensive evaluation of 18 state-of-the-art MLLMs on EmoTrans and obtain two main findings. First, although current MLLMs show relatively stronger performance on coarse-grained emotion change detection, they still struggle with fine-grained emotion dynamics modeling. Second, socially complex settings, especially multi-person scenarios, remain substantially challenging, while reasoning-oriented variants do not consistently yield clear improvements. To facilitate future research, we publicly release the benchmark, evaluation protocol, and code at https://github.com/Emo-gml/EmoTrans.

0 Citations
0 Influential
24.5 Altmetric
122.5 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!