2601.05966v2 Jan 09, 2026 cs.CV

VideoAR: 다음 프레임 및 크기 예측을 통한 자기 회귀 비디오 생성

VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

Shuohuan Wang
Shuohuan Wang
Citations: 3,200
h-index: 15
Haifeng Wang
Haifeng Wang
Citations: 129
h-index: 5
Longbin Ji
Longbin Ji
Citations: 1
h-index: 1
Xiaoxiong Liu
Xiaoxiong Liu
Citations: 1
h-index: 1
Junyuan Shang
Junyuan Shang
Citations: 91
h-index: 4
Yu Sun
Yu Sun
Citations: 169
h-index: 8
Hua Wu
Hua Wu
Citations: 255
h-index: 9

최근 비디오 생성 분야의 발전은 고품질 결과를 제공하지만 계산 비용이 많이 들고 확장하기 어려운 확산 모델 및 플로우 매칭 모델에 의해 주도되어 왔습니다. 본 연구에서는 멀티 스케일 다음 프레임 예측과 자기 회귀 모델링을 결합하여 비디오 생성에 처음으로 대규모 시각적 자기 회귀(VAR) 프레임워크인 VideoAR을 소개합니다. VideoAR은 프레임 내 VAR 모델링과 인과적 다음 프레임 예측을 통합하여 공간적 및 시간적 의존성을 분리하며, 효율적으로 시공간 역학을 인코딩하는 3D 멀티 스케일 토크나이저를 지원합니다. 장기적인 일관성을 향상시키기 위해, 우리는 멀티 스케일 시간적 RoPE, 크로스 프레임 오류 수정 및 랜덤 프레임 마스킹을 제안하며, 이를 통해 오류 전파를 완화하고 시간적 일관성을 안정화합니다. 우리의 다단계 사전 학습 파이프라인은 점진적으로 증가하는 해상도 및 기간에 걸쳐 공간적 및 시간적 학습을 정렬합니다. 실험적으로, VideoAR은 자기 회귀 모델 중에서 새로운 최고 성능을 달성하며, UCF-101 데이터셋에서 FVD 점수를 99.5에서 88.6으로 향상시키면서 추론 단계를 10배 이상 줄이고, VBench 점수를 81.74로 달성하여 크기가 훨씬 큰 확산 기반 모델과 경쟁합니다. 이러한 결과는 VideoAR이 자기 회귀 및 확산 패러다임 간의 성능 격차를 좁히며, 향후 비디오 생성 연구를 위한 확장 가능하고 효율적이며 시간적으로 일관된 기반을 제공함을 보여줍니다.

Original Abstract

Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.

1 Citations
0 Influential
7.5 Altmetric
38.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!