행위 이전에 시공간적 분리: 다중 모드 감성 분석을 위한 분리된 표현 학습
Temporal-Spatial Decouple before Act: Disentangled Representation Learning for Multimodal Sentiment Analysis
다중 모드 감성 분석은 언어, 시각 및 음향 정보를 통합합니다. 주류 접근 방식은 모드 불변 또는 모드 특이적 분해, 또는 복잡한 융합을 기반으로 하지만, 여전히 시공간 혼합 모델에 의존합니다. 이는 시공간적 이질성을 무시하여 시공간 정보의 비대칭을 초래하고, 결과적으로 성능이 제한됩니다. 따라서, 우리는 행위 이전에 시공간적 분리(TSDA)라는 방법을 제안합니다. TSDA는 각 모드를 상호 작용하기 전에 명시적으로 시간 동적 요소와 공간 구조적 요소로 분리합니다. 각 모드에 대해, 시간 인코더와 공간 인코더는 신호를 각각의 시간 및 공간 영역으로 투영합니다. 요소 일관성 기반의 모드 간 정렬은 시간 특징을 모드 간에 해당하는 시간 특징과만 정렬하고, 공간 특징을 모드 간에 해당하는 공간 특징과만 정렬합니다. 요소별 감독 학습 및 상관관계 감소 정규화는 요소 간의 정보 유출을 줄이면서 상호 보완성을 유지합니다. 게이트된 재결합 모듈은 이후 정렬된 스트림을 특정 작업에 맞게 재결합합니다. 광범위한 실험 결과, TSDA가 기존 방법보다 우수한 성능을 보임을 확인했습니다. 추가 분석을 통해 제안된 설계의 필요성과 해석 가능성을 검증했습니다.
Multimodal Sentiment Analysis integrates Linguistic, Visual, and Acoustic. Mainstream approaches based on modality-invariant and modality-specific factorization or on complex fusion still rely on spatiotemporal mixed modeling. This ignores spatiotemporal heterogeneity, leading to spatiotemporal information asymmetry and thus limited performance. Hence, we propose TSDA, Temporal-Spatial Decouple before Act, which explicitly decouples each modality into temporal dynamics and spatial structural context before any interaction. For every modality, a temporal encoder and a spatial encoder project signals into separate temporal and spatial body. Factor-Consistent Cross-Modal Alignment then aligns temporal features only with their temporal counterparts across modalities, and spatial features only with their spatial counterparts. Factor specific supervision and decorrelation regularization reduce cross factor leakage while preserving complementarity. A Gated Recouple module subsequently recouples the aligned streams for task. Extensive experiments show that TSDA outperforms baselines. Ablation analysis studies confirm the necessity and interpretability of the design.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.