2601.21269v1 Jan 29, 2026 cs.CV

3D 화상 회의를 위한 경량 고품질 저비트율 음성 얼굴 압축

Lightweight High-Fidelity Low-Bitrate Talking Face Compression for 3D Video Conference

Hongwei Hu
Hongwei Hu
Citations: 77
h-index: 4
Jun Xu
Jun Xu
Citations: 32
h-index: 3
Bingcong Lu
Bingcong Lu
Citations: 29
h-index: 3
Zhengxue Cheng
Zhengxue Cheng
Citations: 263
h-index: 9
Ronghua Wu
Ronghua Wu
Citations: 32
h-index: 3
Jiang Li
Jiang Li
Citations: 6
h-index: 1
Li Song
Li Song
Citations: 9
h-index: 1

몰입감 있고 상호작용적인 커뮤니케이션에 대한 수요가 증가하면서 3D 화상 회의 기술이 발전하고 있지만, 여전히 낮은 비트율에서 고품질 3D 음성 얼굴 표현을 달성하는 것은 어려운 과제입니다. 기존의 2D 비디오 압축 기술은 미세한 기하학적 및 외관 정보를 제대로 보존하지 못하며, NeRF와 같은 암시적 신경 렌더링 방법은 계산 비용이 매우 높습니다. 이러한 문제점을 해결하기 위해, 저희는 FLAME 기반의 파라메트릭 모델링과 3DGS 신경 렌더링을 통합한 경량, 고품질, 저비트율 3D 음성 얼굴 압축 프레임워크를 제안합니다. 저희의 접근 방식은 필수적인 얼굴 메타데이터만 실시간으로 전송하여, 가우시안 기반 헤드 모델을 사용하여 효율적인 복원을 가능하게 합니다. 또한, 가우시안 속성 압축 및 MLP 최적화를 포함하는 컴팩트한 표현 및 압축 방식을 도입하여 전송 효율성을 향상시켰습니다. 실험 결과는 저희 방법이 우수한 압축 성능을 달성하여, 매우 낮은 비트율에서도 고품질의 얼굴 렌더링을 제공하며, 실시간 3D 화상 회의 애플리케이션에 적합함을 보여줍니다.

Original Abstract

The demand for immersive and interactive communication has driven advancements in 3D video conferencing, yet achieving high-fidelity 3D talking face representation at low bitrates remains a challenge. Traditional 2D video compression techniques fail to preserve fine-grained geometric and appearance details, while implicit neural rendering methods like NeRF suffer from prohibitive computational costs. To address these challenges, we propose a lightweight, high-fidelity, low-bitrate 3D talking face compression framework that integrates FLAME-based parametric modeling with 3DGS neural rendering. Our approach transmits only essential facial metadata in real time, enabling efficient reconstruction with a Gaussian-based head model. Additionally, we introduce a compact representation and compression scheme, including Gaussian attribute compression and MLP optimization, to enhance transmission efficiency. Experimental results demonstrate that our method achieves superior rate-distortion performance, delivering high-quality facial rendering at extremely low bitrates, making it well-suited for real-time 3D video conferencing applications.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!