2604.06728v1 Apr 08, 2026 cs.CV

URMF: 불확실성을 고려한 견고한 다중 모달 융합을 통한 다중 모달 풍자 탐지

URMF: Uncertainty-aware Robust Multimodal Fusion for Multimodal Sarcasm Detection

Wei-Yuan Cheng
Wei-Yuan Cheng
Citations: 6
h-index: 2
Weijia Li
Weijia Li
Citations: 139
h-index: 5
Junji Mou
Junji Mou
Citations: 64
h-index: 4
Zongyou Zhao
Zongyou Zhao
Citations: 0
h-index: 0
Guoyin Zhang
Guoyin Zhang
Citations: 5
h-index: 1
Zhenyu Wang
Zhenyu Wang
Citations: 5
h-index: 1

다중 모달 풍자 탐지(MSD)는 텍스트와 이미지 간의 의미적 불일치를 통해 풍자적인 의도를 파악하는 것을 목표로 합니다. 최근 방법들은 모달 간 상호 작용과 불일치 추론을 통해 MSD 성능을 향상시켰지만, 대부분의 방법은 모든 모달이 동일한 신뢰성을 가진다고 가정합니다. 그러나 실제 소셜 미디어 환경에서는 텍스트 내용이 모호하거나, 시각적 내용이 관련성이 낮거나 심지어 무관할 수 있으며, 이는 결정론적인 융합 방식을 통해 노이즈가 포함된 정보를 제공하고 견고한 추론을 약화시킬 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 모달의 신뢰성을 명시적으로 모델링하여 상호 작용 및 융합 과정에서 이를 고려하는 통합 프레임워크인 불확실성 기반 견고한 다중 모달 융합(URMF)을 제안합니다. URMF는 먼저 멀티 헤드 크로스 어텐션을 사용하여 시각적 증거를 텍스트 표현에 주입한 후, 융합된 의미 공간에서 멀티 헤드 셀프 어텐션을 사용하여 불일치 인지 추론을 강화합니다. 또한, URMF는 각 모달을 학습 가능한 가우시안 후 분포로 매개변수화하여 텍스트, 이미지 및 상호 작용을 고려한 잠재 표현에 대한 통일된 단일 모달 알레아토릭 불확실성 모델링을 수행합니다. 추정된 불확실성은 융합 과정에서 모달 기여도를 동적으로 조절하는 데 추가적으로 사용되어, 신뢰성이 낮은 모달의 영향을 줄이고 더욱 견고한 통합 표현을 얻도록 합니다. 또한, 우리는 작업 감독, 모달 사전 규제, 모달 간 분포 정렬 및 불확실성 기반 자기 샘플링 대비 학습을 통합하는 공동 학습 목표를 설계했습니다. 공개 MSD 벤치마크에 대한 실험 결과, URMF는 강력한 단일 모달, 다중 모달 및 MLLM 기반 모델을 지속적으로 능가하며, 불확실성을 고려한 융합이 정확도와 견고성을 향상시키는 데 효과적임을 입증합니다.

Original Abstract

Multimodal sarcasm detection (MSD) aims to identify sarcastic intent from semantic incongruity between text and image. Although recent methods have improved MSD through cross-modal interaction and incongruity reasoning, they often assume that all modalities are equally reliable. In real-world social media, however, textual content may be ambiguous and visual content may be weakly relevant or even irrelevant, causing deterministic fusion to introduce noisy evidence and weaken robust reasoning. To address this issue, we propose Uncertainty-aware Robust Multimodal Fusion (URMF), a unified framework that explicitly models modality reliability during interaction and fusion. URMF first employs multi-head cross-attention to inject visual evidence into textual representations, followed by multi-head self-attention in the fused semantic space to enhance incongruity-aware reasoning. It then performs unified unimodal aleatoric uncertainty modeling over text, image, and interaction-aware latent representations by parameterizing each modality as a learnable Gaussian posterior. The estimated uncertainty is further used to dynamically regulate modality contributions during fusion, suppressing unreliable modalities and yielding a more robust joint representation. In addition, we design a joint training objective integrating task supervision, modality prior regularization, cross-modal distribution alignment, and uncertainty-driven self-sampling contrastive learning. Experiments on public MSD benchmarks show that URMF consistently outperforms strong unimodal, multimodal, and MLLM-based baselines, demonstrating the effectiveness of uncertainty-aware fusion for improving both accuracy and robustness.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!