OMEGA-Avatar: 360° 가우시안 아바타의 원샷 모델링
OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars
단일 이미지에서 애니메이션이 가능한 고충실도 3D 아바타를 생성하는 것은 여전히 까다로운 과제입니다. 우리는 아바타 생성에 있어 세 가지 바람직한 속성을 확인했습니다: 1) 방법이 피드포워드(feed-forward) 방식이어야 하고, 2) 360° 전체 머리(full-head)를 모델링해야 하며, 3) 애니메이션이 가능해야 합니다. 그러나 현재의 연구들은 이 세 가지 중 두 가지만을 동시에 해결합니다. 이러한 한계를 극복하기 위해, 우리는 단일 이미지로부터 일반화 가능하고 360°로 완전하며 애니메이션이 가능한 3D 가우시안 머리를 동시에 생성하는 최초의 피드포워드 프레임워크인 OMEGA-Avatar를 제안합니다. 피드포워드 및 애니메이션 가능한 프레임워크에서 출발하여, 우리는 두 가지 새로운 구성 요소를 통해 360° 전체 머리 아바타 생성 문제를 해결합니다. 첫째, 전체 머리 아바타 생성 시 나타나는 불완전한 머리카락 모델링을 극복하기 위해, 다중 뷰 법선(normals)을 통합하여 위상(topology) 구조를 유지하면서 머리카락이 포함된 FLAME 머리를 최적화하는 의미론적 인식(semantic-aware) 메쉬 변형 모듈을 도입합니다. 둘째, 전체 머리 특징의 효과적인 피드포워드 디코딩을 가능하게 하기 위해, 미분 가능한 이중 선형 스플래팅(differentiable bilinear splatting), 계층적 UV 매핑, 그리고 가시성 인식 융합(visibility-aware fusion)을 통해 여러 뷰의 특징으로부터 공유된 정규(canonical) UV 표현을 구성하는 다중 뷰 특징 스플래팅 모듈을 제안합니다. 이 접근법은 인스턴스별 최적화 없이도 모든 시점에서 전역적 구조의 일관성과 국소적인 고주파 세부 묘사를 모두 보존하여 360° 일관성을 보장합니다. 광범위한 실험을 통해 OMEGA-Avatar가 다양한 시점에서도 정체성을 견고하게 유지하면서 360° 전체 머리의 완전성 측면에서 기존 베이스라인을 크게 능가하는 최첨단 성능을 달성함을 입증합니다.
Creating high-fidelity, animatable 3D avatars from a single image remains a formidable challenge. We identified three desirable attributes of avatar generation: 1) the method should be feed-forward, 2) model a 360° full-head, and 3) should be animation-ready. However, current work addresses only two of the three points simultaneously. To address these limitations, we propose OMEGA-Avatar, the first feed-forward framework that simultaneously generates a generalizable, 360°-complete, and animatable 3D Gaussian head from a single image. Starting from a feed-forward and animatable framework, we address the 360° full-head avatar generation problem with two novel components. First, to overcome poor hair modeling in full-head avatar generation, we introduce a semantic-aware mesh deformation module that integrates multi-view normals to optimize a FLAME head with hair while preserving its topology structure. Second, to enable effective feed-forward decoding of full-head features, we propose a multi-view feature splatting module that constructs a shared canonical UV representation from features across multiple views through differentiable bilinear splatting, hierarchical UV mapping, and visibility-aware fusion. This approach preserves both global structural coherence and local high-frequency details across all viewpoints, ensuring 360° consistency without per-instance optimization. Extensive experiments demonstrate that OMEGA-Avatar achieves state-of-the-art performance, significantly outperforming existing baselines in 360° full-head completeness while robustly preserving identity across different viewpoints.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.