ML-SAN: 다단계 화자 적응 신경망을 이용한 대화에서의 감정 인식
ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations
기계와의 공감대를 형성하기 위해서는 인간의 감정 변화를 완벽하게 이해하는 것이 필수적입니다. 그러나 다중 모달 감정 인식 연구는 종종 하나의 문제를 간과합니다. 바로 개인의 표현 방식이 크게 다르다는 점입니다. 즉, 다른 사람들은 감정을 다르게 표현할 수 있습니다. 우리 일상생활에서 이를 쉽게 확인할 수 있습니다. 다른 사람들과 소통할 때, 어떤 사람들은 '행복'을 얼굴 표정과 단어로 표현하는 반면, 다른 사람들은 행복을 숨기거나 행동으로 표현할 수 있습니다. 둘 다 '행복'의 표현이지만, 이러한 감정 표현의 차이는 여전히 기계가 구별하기 어렵습니다. 현재의 감정 인식 기술은 '정적' 수준에 머물러 있으며, 모든 감정 표현 방식을 식별하기 위해 단일 인식 모델을 사용합니다. 이러한 '단순화'는 종종 인식 결과에 영향을 미치며, 특히 다중 턴 대화에서 더욱 두드러집니다. 이러한 문제를 해결하기 위해, 본 논문에서는 새로운 다단계 화자 적응 신경망(ML-SAN)을 제안합니다. ML-SAN은 특히 화자 정보로 인한 혼란이라는 어려운 문제에 효과적으로 대처합니다. ML-SAN은 단순히 화자의 ID를 할당하는 것이 아니라, 세 단계의 적응 과정을 사용합니다. 첫째, 입력 수준의 교정 단계에서는 Feature-Level Linear Modulation (FiLM)을 사용하여 원시 오디오 및 시각 특징을 화자와 무관한 중립적인 공간으로 조정합니다. 둘째, 상호 작용 수준의 게이팅 단계에서는 화자의 정보에 따라 각 모달리티(예: 음성 또는 얼굴 특징)에 대한 신뢰도를 재조정합니다. 마지막으로, 출력 수준의 정규화 단계는 잠재 공간에서 화자 특징의 일관성을 유지합니다. MELD 및 IEMOCAP 데이터 세트에 대한 실험 결과, 제안하는 모델(ML-SAN)은 더 나은 결과를 보여주며, 어려운 희귀 감정 카테고리를 처리하는 데 뛰어난 성능을 보이며, 실제 시나리오에서 화자의 다양성을 더 잘 처리합니다.
To establish empathy with machines, it is essential to fully understand human emotional changes. However, research in multimodal emotion recognition often overlooks one problem: individual expressive traits vary significantly, which means that different people may express emotions differently. In our daily lives, we can see this. When communicating with different people, some express "happiness" through their facial expressions and words, while others may hide their happiness or express it through their actions. Both are expressions of 'happiness,' but such differences in emotional expression are still too difficult for machines to distinguish. Current emotion recognition remains at a 'static' level, using a single recognition model to identify all emotional styles. This "simplification" often affects the recognition results, especially in multi-turn dialogues. To address this problem, this paper introduces a novel Multi-Level Speaker Adaptive Network (ML-SAN), which, specifically, effectively addresses the challenge of speaker identity information confusion. ML-SAN does not simply assign a speaker's ID after recognition; instead, it employs a three-stage adaptive process: First, Input-level Calibration uses Feature-Level Linear Modulation (FiLM) to adjust the raw audio and visual features into a neutral space unrelated to the speaker. Then, Interaction-level Gating re-adjusts the trust level for each modality (e.g., voice or facial features) based on the speaker's identity information. Finally, Output-level Regularization maintains the consistency of speaker features in the latent space. Tests on the MELD and IEMOCAP datasets show that our model (ML-SAN) achieves better results, performs exceptionally well in handling challenging tail sentiment categories, and better addresses the diversity of speakers in real-world scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.