자기 회귀 비디오 생성에서의 추론 기반 디코딩
Speculative Decoding for Autoregressive Video Generation
자기 회귀 비디오 확산 모델은 스트리밍 비디오 생성에 대한 유망한 패러다임으로 떠오르고 있으며, 단계별 증류는 추론 속도를 가속화하는 주요 방법으로 사용됩니다. 대규모 언어 모델의 주요 가속화 전략인 추론 기반 디코딩이 자기 회귀 비디오 생성에 효과적으로 적용될 수 있는지 여부는 아직 명확하지 않습니다. 그 이유는 비디오 블록이 토큰 수준의 분포를 갖지 않는 연속적인 시공간 텐서이기 때문에 정확한 거부 샘플링이 어렵기 때문입니다. 본 논문에서는 추론 기반 디코딩을 블록 기반 자기 회귀 비디오 확산 모델에 적용하기 위해, 토큰 검증을 이미지 품질 라우터로 대체하는 SDVG(Speculative Decoding for Video Generation)를 제안합니다. 13억 개의 파라미터를 가진 생성 모델은 4단계의 디노이징 과정을 통해 후보 블록을 제안하며, 각 블록은 VAE를 통해 디코딩되고 ImageReward를 사용하여 평가됩니다. 이때, 최악의 프레임을 기준으로 평균을 취하여 단일 프레임의 결함을 감지합니다. 특정 임계값(tau) 이상의 점수를 받은 블록은 140억 개의 파라미터를 가진 대상 모델의 키-값(KV) 캐시에 저장되고, 나머지 블록은 대상 모델에 의해 재생성됩니다. 첫 번째 블록은 항상 거부되어 장면 구성을 고정하고, tau는 품질과 속도 사이의 균형을 조절하는 단일 변수로 사용됩니다. 1003개의 MovieGenVideoBench 프롬프트(832x480)에 대해, SDVG는 tau=-0.7일 때 대상 모델만 사용했을 때의 VisionReward 품질의 98.1%를 유지하면서 1.59배의 속도 향상을 달성하며, 95.7%의 품질 유지를 통해 2.09배의 속도 향상을 달성합니다. 또한, 생성 모델만 사용했을 때보다 +17% 이상의 성능 향상을 보입니다. SDVG는 추가적인 학습 없이, 아키텍처 변경 없이 기존의 자기 회귀 비디오 생성 파이프라인에 원활하게 통합될 수 있습니다.
Autoregressive video diffusion is emerging as a promising paradigm for streaming video synthesis, with step distillation serving as the primary means of accelerating inference. Whether speculative decoding, the dominant acceleration strategy for large language models, can be effectively adapted to autoregressive video generation remains an open question, because video blocks are continuous spatiotemporal tensors with no token-level distribution for exact rejection sampling. We introduce SDVG, which brings speculative decoding to block-based autoregressive video diffusion by replacing token verification with an image-quality router. A 1.3B drafter proposes candidate blocks via four denoising steps; each block is VAE-decoded and scored by ImageReward using worst-frame aggregation--taking the minimum per-frame reward to catch single-frame artifacts that averaging would mask. Blocks scoring above a fixed threshold tau are accepted into the 14B target's KV cache; the rest are regenerated by the target. Two additional design choices prove critical: the first block is always force-rejected to anchor scene composition, and tau serves as a single knob that traces a smooth quality-speed Pareto frontier. On 1003 MovieGenVideoBench prompts (832x480), SDVG retains 98.1% of target-only VisionReward quality (0.0773 vs. 0.0788) at a 1.59x speedup with tau=-0.7, and reaches 2.09x at 95.7% quality retention--while consistently outperforming draft-only generation by over +17%. The framework is training-free, requires no architectural changes, and can be seamlessly integrated into existing autoregressive video generation pipelines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.