다중 모달 감성 분석을 위한 삼중 부분공간 분리
Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis
다중 모달 감성 분석(MSA)은 언어, 시각, 청각 모달리티를 통합하여 인간의 감성을 추론한다. 기존의 대부분 방법들은 전역적으로 공유되는 표현이나 모달리티 고유의 특징에만 초점을 맞추는 반면, 특정 모달리티 쌍에서만 공유되는 신호는 간과한다. 이는 다중 모달 표현의 표현력과 판별력을 제한한다. 이러한 한계를 해결하기 위해, 본 논문에서는 특징을 세 가지 상호 보완적인 부분공간으로 명시적으로 분해하는 삼중 부분공간 분리(Tri-Subspace Disentanglement, TSD) 프레임워크를 제안한다. 이 세 부분공간은 전역적 일관성을 포착하는 공통 부분공간, 쌍별 교차 모달 시너지를 모델링하는 하위 모달 공유 부분공간(submodally-shared subspaces), 그리고 모달리티 고유의 단서를 보존하는 개별 부분공간으로 구성된다. 이러한 부분공간들을 순수하고 독립적으로 유지하기 위해 구조화된 정규화 손실과 함께 분리 감독자(decoupling supervisor)를 도입한다. 나아가 더 풍부하고 강건한 표현을 얻기 위해 세 가지 부분공간으로부터 정보를 적응적으로 모델링하고 통합하는 부분공간 인지 교차 어텐션(Subspace-Aware Cross-Attention, SACA) 융합 모듈을 설계한다. CMU-MOSI 및 CMU-MOSEI 데이터셋에 대한 실험 결과, TSD는 CMU-MOSI에서 0.691의 MAE, CMU-MOSEI에서 54.9%의 ACC-7을 기록하며 모든 핵심 지표에서 최고 수준(state-of-the-art)의 성능을 달성했으며, 다중 모달 의도 인식 작업에도 성공적으로 전이됨을 입증했다. 절제 연구를 통해 삼중 부분공간 분리와 SACA가 다중 입도(multi-granular) 교차 모달 감성 단서의 모델링을 공동으로 향상시킨다는 것을 확인했다.
Multimodal Sentiment Analysis (MSA) integrates language, visual, and acoustic modalities to infer human sentiment. Most existing methods either focus on globally shared representations or modality-specific features, while overlooking signals that are shared only by certain modality pairs. This limits the expressiveness and discriminative power of multimodal representations. To address this limitation, we propose a Tri-Subspace Disentanglement (TSD) framework that explicitly factorizes features into three complementary subspaces: a common subspace capturing global consistency, submodally-shared subspaces modeling pairwise cross-modal synergies, and private subspaces preserving modality-specific cues. To keep these subspaces pure and independent, we introduce a decoupling supervisor together with structured regularization losses. We further design a Subspace-Aware Cross-Attention (SACA) fusion module that adaptively models and integrates information from the three subspaces to obtain richer and more robust representations. Experiments on CMU-MOSI and CMU-MOSEI demonstrate that TSD achieves state-of-the-art performance across all key metrics, reaching 0.691 MAE on CMU-MOSI and 54.9% ACC-7 on CMU-MOSEI, and also transfers well to multimodal intent recognition tasks. Ablation studies confirm that tri-subspace disentanglement and SACA jointly enhance the modeling of multi-granular cross-modal sentiment cues.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.