파도를 타다: 정밀 할당된 희소 어텐션을 통한 부드러운 비디오 생성
Ride the Wave: Precision-Allocated Sparse Attention for Smooth Video Generation
비디오 디퓨전 트랜스포머는 고품질 비디오 생성을 혁신했지만, 자기-어텐션의 막대한 계산 부담을 가지고 있습니다. 희소 어텐션은 유망한 가속화 솔루션을 제공하지만, 기존 방법은 정적인 희소 패턴과 결정적인 블록 라우팅으로 인해 심각한 시각적 깜빡임을 유발하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 높은 효율성과 시간적 부드러움을 갖춘 비디오 생성을 위한 훈련이 필요 없는 프레임워크인 정밀 할당된 희소 어텐션(PASA)을 제안합니다. 첫째, 우리는 곡률 인지 동적 예산 할당 메커니즘을 구현합니다. 타임스텝 전반에 걸쳐 생성 트랙의 가속도를 프로파일링하여, 중요한 의미 변화 시점에 고정밀 처리를 보장하기 위해 정확한 계산 예산을 탄력적으로 할당합니다. 둘째, 우리는 글로벌 동질화 추정치를 하드웨어에 최적화된 그룹화된 근사치로 대체하여, 최고 수준의 계산 처리량을 유지하면서 미세한 지역적 변화를 성공적으로 포착합니다. 마지막으로, 우리는 어텐션 라우팅 메커니즘에 확률적 선택 편향을 도입합니다. 이 확률적 접근 방식은 경직된 선택 경계를 완화하고 선택 진동을 제거하여, 시간적 깜빡임을 유발하는 국소적인 계산 부족을 효과적으로 제거합니다. 선도적인 비디오 디퓨전 모델에 대한 광범위한 평가 결과, PASA는 상당한 추론 가속을 달성하는 동시에 놀라울 정도로 부드럽고 구조적으로 안정적인 비디오 시퀀스를 지속적으로 생성하는 것으로 나타났습니다.
Video Diffusion Transformers have revolutionized high-fidelity video generation but suffer from the massive computational burden of self-attention. While sparse attention provides a promising acceleration solution, existing methods frequently provoke severe visual flickering caused by static sparsity patterns and deterministic block routing. To resolve these limitations, we propose Precision-Allocated Sparse Attention (PASA), a training-free framework designed for highly efficient and temporally smooth video generation. First, we implement a curvature-aware dynamic budgeting mechanism. By profiling the generation trajectory acceleration across timesteps, we elastically allocate the exact-computation budget to secure high-precision processing strictly during critical semantic transitions. Second, we replace global homogenizing estimations with hardware-aligned grouped approximations, successfully capturing fine-grained local variations while maintaining peak compute throughput. Finally, we incorporate a stochastic selection bias into the attention routing mechanism. This probabilistic approach softens rigid selection boundaries and eliminates selection oscillation, effectively eradicating the localized computational starvation that drives temporal flickering. Extensive evaluations on leading video diffusion models demonstrate that PASA achieves substantial inference acceleration while consistently producing remarkably fluid and structurally stable video sequences.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.