VideoGPA: 3차원 일관성을 위한 기하학적 제약 조건 학습을 통한 동영상 생성
VideoGPA: Distilling Geometry Priors for 3D-Consistent Video Generation
최근 동영상 확산 모델(VDM)은 시각적으로 뛰어난 결과를 보여주지만, 근본적으로 3차원 구조적 일관성을 유지하는 데 어려움을 겪으며, 종종 객체 변형이나 공간적 왜곡이 발생합니다. 이러한 문제는 표준 노이즈 제거 목표가 명시적인 기하학적 일관성을 유도하는 인센티브를 제공하지 못하기 때문에 발생한다고 가정합니다. 이를 해결하기 위해, 우리는 VideoGPA(Video Geometric Preference Alignment)라는 데이터 효율적인 자기 지도 학습 프레임워크를 제안합니다. VideoGPA는 기하학적 기반 모델을 활용하여 VDM을 직접 선호도 최적화(DPO)를 통해 안내할 수 있는 밀집된 선호도 신호를 자동으로 도출합니다. 이 접근 방식은 인간의 주석 없이도 생성 분포를 본질적인 3차원 일관성을 향해 효과적으로 유도합니다. VideoGPA는 최소한의 선호도 쌍을 사용하여 시간적 안정성, 물리적 타당성 및 동작 일관성을 크게 향상시키며, 광범위한 실험에서 최첨단 모델을 지속적으로 능가합니다.
While recent video diffusion models (VDMs) produce visually impressive results, they fundamentally struggle to maintain 3D structural consistency, often resulting in object deformation or spatial drift. We hypothesize that these failures arise because standard denoising objectives lack explicit incentives for geometric coherence. To address this, we introduce VideoGPA (Video Geometric Preference Alignment), a data-efficient self-supervised framework that leverages a geometry foundation model to automatically derive dense preference signals that guide VDMs via Direct Preference Optimization (DPO). This approach effectively steers the generative distribution toward inherent 3D consistency without requiring human annotations. VideoGPA significantly enhances temporal stability, physical plausibility, and motion coherence using minimal preference pairs, consistently outperforming state-of-the-art baselines in extensive experiments.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.