효율적인 자기회귀 비디오 생성을 위한 동작 인지 캐싱
Motion-Aware Caching for Efficient Autoregressive Video Generation
자기회귀 비디오 생성 방식은 긴 비디오 합성에 대한 잠재력을 제공하지만, 순차적인 반복적인 노이즈 제거 과정으로 인해 실제 적용에 어려움이 있습니다. 캐시 재사용 전략은 불필요한 노이즈 제거 단계를 건너뛰어 생성을 가속화할 수 있지만, 기존 방법은 세분화된 픽셀 동역학을 포착하지 못하는 거칠고 수준 낮은 청크 단위의 건너뛰기에 의존합니다. 이러한 간과된 부분은 매우 중요합니다. 움직임이 큰 픽셀은 오류 누적을 방지하기 위해 더 많은 노이즈 제거 단계를 필요로 하는 반면, 정적인 픽셀은 과감한 건너뛰기를 허용합니다. 우리는 이 통찰력을 이론적으로 공식화하여 캐시 오류를 잔여 불안정성과 연결하고, 픽셀 수준의 동작 특성을 나타내는 가벼운 지표로 프레임 간 차이를 활용하는 동작 인지 캐시 프레임워크인 MotionCache를 제안합니다. MotionCache는 초기 워밍업 단계를 통해 의미적 일관성을 확립한 다음, 토큰별 업데이트 빈도를 동적으로 조정하는 동작 가중 캐시 재사용 전략을 사용합니다. SkyReels-V2 및 MAGI-1과 같은 최첨단 모델에 대한 광범위한 실험 결과, MotionCache는 각각 $ extbf{6.28} imes$ 및 $ extbf{1.64} imes$의 상당한 속도 향상을 달성하는 동시에 생성 품질을 효과적으로 유지합니다 (VBench: 각각 $1 ext{%} ext{ 감소}$ 및 $0.01 ext{%} ext{ 감소}$). 코드: https://github.com/ywlq/MotionCache
Autoregressive video generation paradigms offer theoretical promise for long video synthesis, yet their practical deployment is hindered by the computational burden of sequential iterative denoising. While cache reuse strategies can accelerate generation by skipping redundant denoising steps, existing methods rely on coarse-grained chunk-level skipping that fails to capture fine-grained pixel dynamics. This oversight is critical: pixels with high motion require more denoising steps to prevent error accumulation, while static pixels tolerate aggressive skipping. We formalize this insight theoretically by linking cache errors to residual instability, and propose MotionCache, a motion-aware cache framework that exploits inter-frame differences as a lightweight proxy for pixel-level motion characteristics. MotionCache employs a coarse-to-fine strategy: an initial warm-up phase establishes semantic coherence, followed by motion-weighted cache reuse that dynamically adjusts update frequencies per token. Extensive experiments on state-of-the-art models like SkyReels-V2 and MAGI-1 demonstrate that MotionCache achieves significant speedups of $\textbf{6.28}\times$ and $\textbf{1.64}\times$ respectively, while effectively preserving generation quality (VBench: $1\%\downarrow$ and $0.01\%\downarrow$ respectively). The code is available at https://github.com/ywlq/MotionCache.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.