2601.02414v1 Jan 03, 2026 cs.CV

MIAR: 다중 모드 감정 인식 모델의 모달 상호작용 및 정렬 표현 융합

MIAR: Modality Interaction and Alignment Representation Fuison for Multimodal Emotion

Jun Yu
Jun Yu
Citations: 158
h-index: 3
Jichao Zhu
Jichao Zhu
Citations: 90
h-index: 6

다중 모드 감정 인식(MER)은 언어, 시각, 음성 세 가지 모드를 통해 인간의 감정을 인식하는 것을 목표로 합니다. 기존 방법들은 주로 모달 융합에 집중했지만, 모달 간의 중요한 분포 차이를 충분히 고려하지 않았으며, 각 모드가 수행하는 작업에 대한 다양한 기여도를 반영하지 못했습니다. 또한, 다양한 텍스트 모델 특징에 대한 강력한 일반화 능력이 부족하여 다중 모드 환경에서의 성능을 제한했습니다. 따라서, 본 논문에서는 모달 상호작용 및 정렬 표현(MIAR)이라는 새로운 접근 방식을 제안합니다. MIAR 네트워크는 특징 상호작용을 통해 서로 다른 모드의 문맥적 특징을 통합하고, 특징 토큰을 생성하여 각 모드의 전역적인 표현을 나타냅니다. 이러한 토큰들은 각 모드가 다른 모드로부터 어떤 정보를 추출하는지를 나타내는 전역적인 표현입니다. MIAR은 대비 학습 및 정규화 전략을 사용하여 서로 다른 모달을 정렬합니다. CMU-MOSI 및 CMU-MOSEI 데이터셋을 사용하여 실험을 수행한 결과, MIAR이 최첨단 MER 방법보다 우수한 성능을 보이는 것을 확인했습니다.

Original Abstract

Multimodal Emotion Recognition (MER) aims to perceive human emotions through three modes: language, vision, and audio. Previous methods primarily focused on modal fusion without adequately addressing significant distributional differences among modalities or considering their varying contributions to the task. They also lacked robust generalization capabilities across diverse textual model features, thus limiting performance in multimodal scenarios. Therefore, we propose a novel approach called Modality Interaction and Alignment Representation (MIAR). This network integrates contextual features across different modalities using a feature interaction to generate feature tokens to represent global representations of this modality extracting information from other modalities. These four tokens represent global representations of how each modality extracts information from others. MIAR aligns different modalities using contrastive learning and normalization strategies. We conduct experiments on two benchmarks: CMU-MOSI and CMU-MOSEI datasets, experimental results demonstrate the MIAR outperforms state-of-the-art MER methods.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!