EAD-Net: 공간적 정제 및 시간적 일관성을 갖춘 감정 인식 대화형 화상 생성
EAD-Net: Emotion-Aware Talking Head Generation with Spatial Refinement and Temporal Coherence
감정 인식 대화형 화상 생성은 정확한 입술 동기화 및 감정적인 얼굴 표정을 갖춘 표현력 있는 인물 비디오를 생성하는 것을 목표로 합니다. 기존 방법은 단순한 감정 레이블에 의존하여 충분한 의미 정보를 제공하지 못합니다. 고수준 의미 정보를 도입하면 표현력이 향상되지만, 입술 동기화 성능 저하를 초래하기 쉽습니다. 또한, 주류 생성 방법은 긴 비디오에서 계산 효율성과 전체적인 움직임 인지 간의 균형을 맞추는 데 어려움을 겪으며, 시간적 일관성이 부족한 경우가 많습니다. 따라서, 본 논문에서는 감정 인식 확산 모델 기반 네트워크인 extbf{E}motion- extbf{A}ware extbf{D}iffusion model-based extbf{Net}work, 즉 extbf{EAD-Net}을 제안합니다. 다중 모달 퓨전으로 인한 입술 동기화 성능 저하를 완화하기 위해 SyncNet 감독 학습과 시간적 표현 정렬(Temporal Representation Alignment, TREPA)을 도입했습니다. 긴 비디오 시퀀스에서 복잡한 시공간적 의존성을 모델링하기 위해, 스트립 어텐션을 통해 전체적인 움직임 패턴을 파악하는 시공간 방향 어텐션(Spatio-Temporal Directional Attention, STDA) 메커니즘을 제안합니다. 또한, 그래프 구조 학습을 통해 비디오 프레임 간의 시간적 일관성을 명시적으로 모델링하기 위한 시간 프레임 그래프 추론 모듈(Temporal Frame graph Reasoning Module, TFRM)을 설계했습니다. 감정적인 의미 제어를 강화하기 위해, 대규모 언어 모델을 사용하여 실제 비디오에서 텍스트 설명을 추출하고, 이를 고수준 의미 지침으로 활용합니다. HDTF 및 MEAD 데이터셋에 대한 실험 결과, 제안하는 방법은 기존 방법보다 입술 동기화 정확도, 시간적 일관성 및 감정적 정확도 측면에서 우수한 성능을 보였습니다.
Emotionally talking head video generation aims to generate expressive portrait videos with accurate lip synchronization and emotional facial expressions. Current methods rely on simple emotional labels, leading to insufficient semantic information. While introducing high-level semantics enhances expressiveness, it easily causes lip-sync degradation. Furthermore, mainstream generation methods struggle to balance computational efficiency and global motion awareness in long videos and suffer from poor temporal coherence. Therefore, we propose an \textbf{E}motion-\textbf{A}ware \textbf{D}iffusion model-based \textbf{Net}work, called \textbf{EAD-Net}. We introduce SyncNet supervision and Temporal Representation Alignment (TREPA) to mitigate lip-sync degradation caused by multi-modal fusion. To model complex spatio-temporal dependencies in long video sequences, we propose a Spatio-Temporal Directional Attention (STDA) mechanism that captures global motion patterns through strip attention. Additionally, we design a Temporal Frame graph Reasoning Module (TFRM) to explicitly model temporal coherence between video frames through graph structure learning. To enhance emotional semantic control, a large language model is employed to extract textual descriptions from real videos, serving as high-level semantic guidance. Experiments on the HDTF and MEAD datasets demonstrate that our method outperforms existing methods in terms of lip-sync accuracy, temporal consistency, and emotional accuracy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.