VideoAR: 다음 프레임 및 크기 예측을 통한 자기 회귀 비디오 생성
VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction
최근 비디오 생성 분야의 발전은 고품질 결과를 제공하지만 계산 비용이 많이 들고 확장하기 어려운 확산 모델 및 플로우 매칭 모델에 의해 주도되어 왔습니다. 본 연구에서는 멀티 스케일 다음 프레임 예측과 자기 회귀 모델링을 결합하여 비디오 생성에 처음으로 대규모 시각적 자기 회귀(VAR) 프레임워크인 VideoAR을 소개합니다. VideoAR은 프레임 내 VAR 모델링과 인과적 다음 프레임 예측을 통합하여 공간적 및 시간적 의존성을 분리하며, 효율적으로 시공간 역학을 인코딩하는 3D 멀티 스케일 토크나이저를 지원합니다. 장기적인 일관성을 향상시키기 위해, 우리는 멀티 스케일 시간적 RoPE, 크로스 프레임 오류 수정 및 랜덤 프레임 마스킹을 제안하며, 이를 통해 오류 전파를 완화하고 시간적 일관성을 안정화합니다. 우리의 다단계 사전 학습 파이프라인은 점진적으로 증가하는 해상도 및 기간에 걸쳐 공간적 및 시간적 학습을 정렬합니다. 실험적으로, VideoAR은 자기 회귀 모델 중에서 새로운 최고 성능을 달성하며, UCF-101 데이터셋에서 FVD 점수를 99.5에서 88.6으로 향상시키면서 추론 단계를 10배 이상 줄이고, VBench 점수를 81.74로 달성하여 크기가 훨씬 큰 확산 기반 모델과 경쟁합니다. 이러한 결과는 VideoAR이 자기 회귀 및 확산 패러다임 간의 성능 격차를 좁히며, 향후 비디오 생성 연구를 위한 확장 가능하고 효율적이며 시간적으로 일관된 기반을 제공함을 보여줍니다.
Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.