자기 회귀 비디오 생성에서의 흐름 캐싱
Flow caching for autoregressive video generation
자기 회귀 모델은 종종 트랜스포머 아키텍처를 기반으로 하며, 콘텐츠를 순차적인 덩어리로 합성하여 초장편 비디오를 생성하는 강력한 패러다임을 제공합니다. 그러나 이러한 순차적인 생성 과정은 매우 느린 경향이 있습니다. 캐싱 전략은 기존의 비디오 확산 모델의 속도 향상에 효과적임이 입증되었지만, 기존 방법은 모든 프레임에 걸쳐 균일한 노이즈 제거를 가정합니다. 그러나 자기 회귀 모델에서는 동일한 타임스텝에서 서로 다른 비디오 덩어리가 다양한 유사성 패턴을 나타내므로 이러한 가정이 깨집니다. 본 논문에서는 자기 회귀 비디오 생성에 특화된 최초의 캐싱 프레임워크인 FlowCache를 제시합니다. 우리의 핵심 아이디어는 각 비디오 덩어리가 독립적인 캐싱 정책을 유지해야 한다는 점이며, 이를 통해 각 타임스텝에서 어떤 덩어리에 대한 재계산이 필요한지 세밀하게 제어할 수 있습니다. 우리는 각 덩어리의 고유한 노이즈 제거 특성에 동적으로 적응하는 덩어리별 캐싱 전략을 도입하고, 메모리 제한을 유지하면서 생성 품질을 보존하는 공동 중요도-중복성 최적화된 KV 캐시 압축 메커니즘을 함께 사용합니다. 우리의 방법은 MAGI-1에서 2.38배, SkyReels-V2에서 6.7배의 상당한 속도 향상을 달성했으며, 품질 저하가 미미합니다 (VBench: 각각 0.87 증가 및 0.79 감소). 이러한 결과는 FlowCache가 자기 회귀 모델의 실시간 초장편 비디오 생성을 위한 잠재력을 성공적으로 활용하며, 효율적인 대규모 비디오 합성을 위한 새로운 벤치마크를 제시한다는 것을 보여줍니다. 코드는 https://github.com/mikeallen39/FlowCache 에서 확인할 수 있습니다.
Autoregressive models, often built on Transformer architectures, represent a powerful paradigm for generating ultra-long videos by synthesizing content in sequential chunks. However, this sequential generation process is notoriously slow. While caching strategies have proven effective for accelerating traditional video diffusion models, existing methods assume uniform denoising across all frames-an assumption that breaks down in autoregressive models where different video chunks exhibit varying similarity patterns at identical timesteps. In this paper, we present FlowCache, the first caching framework specifically designed for autoregressive video generation. Our key insight is that each video chunk should maintain independent caching policies, allowing fine-grained control over which chunks require recomputation at each timestep. We introduce a chunkwise caching strategy that dynamically adapts to the unique denoising characteristics of each chunk, complemented by a joint importance-redundancy optimized KV cache compression mechanism that maintains fixed memory bounds while preserving generation quality. Our method achieves remarkable speedups of 2.38 times on MAGI-1 and 6.7 times on SkyReels-V2, with negligible quality degradation (VBench: 0.87 increase and 0.79 decrease respectively). These results demonstrate that FlowCache successfully unlocks the potential of autoregressive models for real-time, ultra-long video generation-establishing a new benchmark for efficient video synthesis at scale. The code is available at https://github.com/mikeallen39/FlowCache.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.