2603.08034v1 Mar 09, 2026 cs.CV

제10회 ABAW 표정 인식 챌린지 해결 방안: 안전한 크로스 어텐션 및 모달리티 드롭아웃을 갖춘 강력한 다중 모드 프레임워크

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Jiaen Liang
Jiaen Liang
Citations: 56
h-index: 5
Jun Yu
Jun Yu
Citations: 7
h-index: 2
Nai-Wei Zheng
Nai-Wei Zheng
Citations: 51
h-index: 3
Guoyu Wang
Guoyu Wang
Citations: 0
h-index: 0
Yunxiang Zhang
Yunxiang Zhang
Citations: 23
h-index: 2
Lingsi Zhu
Lingsi Zhu
Citations: 9
h-index: 2
Wei Huang
Wei Huang
Citations: 0
h-index: 0
Shengping Liu
Shengping Liu
Citations: 0
h-index: 0

실제 환경에서의 감정 인식은 부분적인 가려짐, 누락된 모달리티, 그리고 심각한 클래스 불균형 문제로 인해 어려움을 겪습니다. 이러한 문제점, 특히 Affective Behavior Analysis in-the-wild (ABAW) 표정 인식 챌린지에 대한 문제를 해결하기 위해, 우리는 시각 및 청각 정보를 동적으로 융합하는 다중 모드 프레임워크를 제안합니다. 우리의 접근 방식은 안전한 크로스 어텐션 메커니즘과 모달리티 드롭아웃 전략을 특징으로 하는 이중 브랜치 트랜스포머 아키텍처를 사용합니다. 이러한 설계는 네트워크가 시각적인 정보가 없을 때 오디오 기반 예측에 의존할 수 있도록 합니다. Aff-Wild2 데이터셋의 긴 꼬리 분포 문제를 완화하기 위해, 우리는 focal loss 최적화를 적용하고, 슬라이딩 윈도우 소프트 보팅 전략을 결합하여 동적인 감정 변화를 포착하고 프레임 단위 분류의 불안정성을 줄입니다. 실험 결과는 우리의 프레임워크가 누락된 모달리티와 복잡한 시공간 의존성을 효과적으로 처리하며, Aff-Wild2 검증 데이터셋에서 60.79%의 정확도와 0.5029의 F1-score를 달성함을 보여줍니다.

Original Abstract

Emotion recognition in real-world environments is hindered by partial occlusions, missing modalities, and severe class imbalance. To address these issues, particularly for the Affective Behavior Analysis in-the-wild (ABAW) Expression challenge, we propose a multimodal framework that dynamically fuses visual and audio representations. Our approach uses a dual-branch Transformer architecture featuring a safe cross-attention mechanism and a modality dropout strategy. This design allows the network to rely on audio-based predictions when visual cues are absent. To mitigate the long-tail distribution of the Aff-Wild2 dataset, we apply focal loss optimization, combined with a sliding-window soft voting strategy to capture dynamic emotional transitions and reduce frame-level classification jitter. Experiments demonstrate that our framework effectively handles missing modalities and complex spatiotemporal dependencies, achieving an accuracy of 60.79% and an F1-score of 0.5029 on the Aff-Wild2 validation set.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!