2601.19112v1 Jan 27, 2026 cs.AI

감정 프라이어 증류를 이용한 불확실성 인식 3D 감정 표현 말하는 얼굴 합성

Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation

Nanhan Shen
Nanhan Shen
Citations: 0
h-index: 0
Zhilei Liu
Zhilei Liu
Citations: 22
h-index: 3

감정 표현 말하는 얼굴 합성은 멀티미디어 및 신호 처리 분야에서 중추적인 역할을 하지만, 기존 3D 방법론은 두 가지 중요한 과제에 직면해 있습니다. 첫째는 오디오 감정 추출의 어려움과 감정적 미세 표정에 대한 불충분한 제어로 인해 발생하는 열악한 오디오-비전 감정 정렬 문제입니다. 둘째는 불확실성과 특징 품질의 차이를 간과하여 렌더링 품질을 저하시키는 획일적인 다중 시점 융합 전략입니다. 우리는 감정 프라이어 증류(Emotion Prior Distillation)를 활용한 불확실성 인식 3D 감정 표현 말하는 얼굴 합성 모델인 UA-3DTalk를 제안하며, 이는 세 가지 핵심 모듈로 구성됩니다. 사전 정보 추출(Prior Extraction) 모듈은 오디오를 정렬을 위한 내용 동기화 특징과 개인화를 위한 개인 특화 상호 보완 특징으로 분리합니다. 감정 증류(Emotion Distillation) 모듈은 멀티모달 어텐션 가중 융합 메커니즘과 다중 해상도 코드북을 이용한 4D 가우시안 인코딩을 도입하여, 세밀한 오디오 감정 추출과 감정적 미세 표정의 정밀한 제어를 가능하게 합니다. 불확실성 기반 변형(Uncertainty-based Deformation) 모듈은 불확실성 블록을 통해 시점별 우연적(입력 잡음) 불확실성과 인식론적(모델 파라미터) 불확실성을 추정하여 적응형 다중 시점 융합을 구현하고, 균일 가중치 융합의 한계를 극복하기 위해 가우시안 프리미티브 최적화를 위한 멀티 헤드 디코더를 통합합니다. 일반 및 감정 데이터셋에 대한 광범위한 실험 결과, UA-3DTalk는 감정 정렬 부문의 E-FID에서 5.2%, 립 싱크로나이제이션 부문의 SyncC에서 3.1%, 렌더링 품질 부문의 LPIPS에서 0.015만큼 DEGSTalk 및 EDTalk와 같은 최신 방법론을 능가하는 것으로 나타났습니다.

Original Abstract

Emotional Talking Face synthesis is pivotal in multimedia and signal processing, yet existing 3D methods suffer from two critical challenges: poor audio-vision emotion alignment, manifested as difficult audio emotion extraction and inadequate control over emotional micro-expressions; and a one-size-fits-all multi-view fusion strategy that overlooks uncertainty and feature quality differences, undermining rendering quality. We propose UA-3DTalk, Uncertainty-Aware 3D Emotional Talking Face Synthesis with emotion prior distillation, which has three core modules: the Prior Extraction module disentangles audio into content-synchronized features for alignment and person-specific complementary features for individualization; the Emotion Distillation module introduces a multi-modal attention-weighted fusion mechanism and 4D Gaussian encoding with multi-resolution code-books, enabling fine-grained audio emotion extraction and precise control of emotional micro-expressions; the Uncertainty-based Deformation deploys uncertainty blocks to estimate view-specific aleatoric (input noise) and epistemic (model parameters) uncertainty, realizing adaptive multi-view fusion and incorporating a multi-head decoder for Gaussian primitive optimization to mitigate the limitations of uniform-weight fusion. Extensive experiments on regular and emotional datasets show UA-3DTalk outperforms state-of-the-art methods like DEGSTalk and EDTalk by 5.2% in E-FID for emotion alignment, 3.1% in SyncC for lip synchronization, and 0.015 in LPIPS for rendering quality. Project page: https://mrask999.github.io/UA-3DTalk

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!