2603.13760v1 Mar 14, 2026 cs.AI

10차 ABAW EMI 트랙을 위한 다중 목적 최적화 및 VAD 기반 오디오 모델링을 활용한 다중 모드 감정 회귀

Multimodal Emotion Regression with Multi-Objective Optimization and VAD-Aware Audio Modeling for the 10th ABAW EMI Track

Jiawen Huang
Jiawen Huang
Citations: 281
h-index: 8
Chenxi Huang
Chenxi Huang
Citations: 36
h-index: 1
Zhuofan Wen
Zhuofan Wen
Citations: 251
h-index: 8
Hailiang Yao
Hailiang Yao
Citations: 31
h-index: 3
Shun Chen
Shun Chen
Citations: 143
h-index: 7
Longjiang Yang
Longjiang Yang
Citations: 5
h-index: 2
Cong Yu
Cong Yu
Citations: 2
h-index: 1
Fengyu Zhang
Fengyu Zhang
Citations: 8
h-index: 2
Ran Liu
Ran Liu
Citations: 31
h-index: 2
Bin Liu
Bin Liu
Citations: 780
h-index: 12

본 연구는 10차 ABAW 챌린지에서 Hume-Vidmimic2 데이터셋을 사용한 감정 모방 강도(EMI) 추정 트랙에 참여했습니다. 이 과제는 존경심, 즐거움, 결단력, 공감적 고통, 흥분, 기쁨의 6가지 연속적인 감정 차원을 예측하는 것을 목표로 합니다. 사전 학습된 고수준 특징에 대한 체계적인 다중 모드 분석을 통해, 저희의 사전 학습된 특징 설정 하에서 직접적인 특징 연결이 테스트한 더 복잡한 융합 전략보다 더 우수한 성능을 보였습니다. 이러한 실험적 결과는 다음 세 가지 핵심 원칙에 기반한 체계적인 접근 방식을 설계하도록 이끌었습니다. (i) 특징 수준에서의 연결을 통해 모달리티별 특성을 유지합니다. (ii) 다중 목적 최적화를 통해 학습 안정성을 향상시키고 지표 정렬을 개선합니다. (iii) VAD(Voice Activity Detection)에서 영감을 받은 잠재적 사전 정보를 활용하여 음향 표현을 풍부하게 합니다. 최종 프레임워크는 연결 기반의 다중 모드 융합, 공유된 6차원 회귀 헤드, MSE, Pearson 상관 계수 및 보조 분기 감독을 포함한 다중 목적 최적화, 파라미터 안정화를 위한 EMA, 그리고 음향 분기를 위한 VAD에서 영감을 받은 잠재적 사전 정보를 통합합니다. 공식 검증 세트에서 제안된 방식은 최고 평균 Pearson 상관 계수 0.478567을 달성했습니다.

Original Abstract

We participated in the 10th ABAW Challenge, focusing on the Emotional Mimicry Intensity (EMI) Estimation track on the Hume-Vidmimic2 dataset. This task aims to predict six continuous emotion dimensions: Admiration, Amusement, Determination, Empathic Pain, Excitement, and Joy. Through systematic multimodal exploration of pretrained high-level features, we found that, under our pretrained feature setting, direct feature concatenation outperformed the more complex fusion strategies we tested. This empirical finding motivated us to design a systematic approach built upon three core principles: (i) preserving modality-specific attributes through feature-level concatenation; (ii) improving training stability and metric alignment via multi-objective optimization; and (iii) enriching acoustic representations with a VAD-inspired latent prior. Our final framework integrates concatenation-based multimodal fusion, a shared six-dimensional regression head, multi-objective optimization with MSE, Pearson-correlation, and auxiliary branch supervision, EMA for parameter stabilization, and a VAD-inspired latent prior for the acoustic branch. On the official validation set, the proposed scheme achieved our best mean Pearson Correlation Coefficient of 0.478567.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!