PackForcing: 짧은 비디오 학습만으로도 장편 비디오 샘플링 및 장기 컨텍스트 추론이 가능
PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference
자기회귀 비디오 확산 모델은 놀라운 발전을 이루었지만, 장편 비디오 생성 과정에서 발생하는 복잡한 선형 KV-캐시 증가, 시간적 반복, 그리고 누적 오류로 인해 여전히 어려움을 겪고 있습니다. 이러한 문제점을 해결하기 위해, 본 논문에서는 새로운 세-파티션 KV-캐시 전략을 통해 생성 히스토리를 효율적으로 관리하는 통합 프레임워크인 PackForcing을 제안합니다. 구체적으로, 과거 컨텍스트를 세 가지 유형으로 분류합니다. (1) Sink 토큰: 전체 해상도로 초기 프레임을 보존하여 전역 의미를 유지합니다. (2) Mid 토큰: 이중 브랜치 네트워크를 사용하여 점진적인 3D 컨볼루션과 저해상도 VAE 재인코딩을 결합하여 공간-시간 압축을 극대화합니다 (32배 토큰 감소). (3) Recent 토큰: 로컬 시간적 일관성을 보장하기 위해 전체 해상도로 유지합니다. 품질 저하 없이 메모리 사용량을 제한하기 위해, Mid 토큰에 대해 동적인 top-$k$ 컨텍스트 선택 메커니즘을 도입하고, 삭제된 토큰으로 인해 발생하는 위치 간격을 미미한 오버헤드로 원활하게 재정렬하는 지속적인 Temporal RoPE 조정 기능을 추가했습니다. 이러한 체계적인 계층적 컨텍스트 압축을 통해 PackForcing은 단일 H200 GPU에서 16 FPS로 2분 분량, 832x480 해상도의 일관성 있는 비디오를 생성할 수 있습니다. KV 캐시는 4GB로 제한되며, 놀라운 24배의 시간 외삽 (5초에서 120초)이 가능하며, 제로샷 또는 단 5초 길이의 클립으로 학습하여 효과적으로 작동합니다. VBench에 대한 광범위한 실험 결과는 PackForcing이 최첨단 수준의 시간적 일관성 (26.07) 및 동적 표현 (56.25)을 달성하며, 짧은 비디오 학습만으로도 고품질의 장편 비디오 생성이 가능하다는 것을 입증합니다. (GitHub: https://github.com/ShandaAI/PackForcing)
Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-$k$ context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.