2602.23802v1 Feb 27, 2026 cs.AI

EMO-R3: 다중 모드 대규모 언어 모델의 감정 추론을 위한 반사적 강화 학습

EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

Pei Fu
Pei Fu
Citations: 16
h-index: 3
Zhenbo Luo
Zhenbo Luo
Citations: 153
h-index: 5
Jian Luan
Jian Luan
Citations: 164
h-index: 6
Kehua Su
Kehua Su
Citations: 40
h-index: 2
Wenke Huang
Wenke Huang
Citations: 1,789
h-index: 18
Mang Ye
Mang Ye
Citations: 616
h-index: 13
Yiyang Fang
Yiyang Fang
Citations: 61
h-index: 4
Yihao Yang
Yihao Yang
Citations: 51
h-index: 2

다중 모드 대규모 언어 모델(MLLM)은 시각적 추론 및 이해 작업에서 상당한 발전을 보였지만, 여전히 인간 감정의 복잡성과 주관성을 제대로 파악하는 데 어려움을 겪습니다. 기존의 지도 학습 기반 접근 방식은 종종 일반화 능력 부족과 낮은 해석 가능성 문제를 안고 있으며, 그룹 상대 정책 최적화와 같은 강화 학습 방법은 감정 인지의 고유한 특성과 일치하지 않습니다. 이러한 문제점을 해결하기 위해, 다중 모드 대규모 언어 모델의 감정 추론 능력을 향상시키는 프레임워크인 반사적 강화 학습을 위한 감정 추론(EMO-R3)을 제안합니다. 구체적으로, 구조화된 감정적 사고(Structured Emotional Thinking)를 도입하여 모델이 체계적이고 해석 가능한 방식으로 단계별 감정 추론을 수행하도록 안내하고, 시각-텍스트 일관성 및 감정적 일관성을 기반으로 모델이 자신의 추론을 재평가할 수 있도록 하는 반사적 감정 보상(Reflective Emotional Reward)을 설계했습니다. 광범위한 실험 결과, EMO-R3는 다중 모드 대규모 언어 모델의 해석 가능성과 감정 지능을 크게 향상시키며, 다양한 시각적 감정 이해 벤치마크에서 뛰어난 성능을 달성하는 것을 보여줍니다.

Original Abstract

Multimodal Large Language Models (MLLMs) have shown remarkable progress in visual reasoning and understanding tasks but still struggle to capture the complexity and subjectivity of human emotions. Existing approaches based on supervised fine-tuning often suffer from limited generalization and poor interpretability, while reinforcement learning methods such as Group Relative Policy Optimization fail to align with the intrinsic characteristics of emotional cognition. To address these challenges, we propose Reflective Reinforcement Learning for Emotional Reasoning (EMO-R3), a framework designed to enhance the emotional reasoning ability of MLLMs. Specifically, we introduce Structured Emotional Thinking to guide the model to perform step-by-step emotional reasoning in a structured and interpretable manner, and design a Reflective Emotional Reward that enables the model to re-evaluate its reasoning based on visual-text consistency and emotional coherence. Extensive experiments demonstrate that EMO-R3 significantly improves both the interpretability and emotional intelligence of MLLMs, achieving superior performance across multiple visual emotional understanding benchmarks.

0 Citations
0 Influential
9 Altmetric
45.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!