2603.24260v1 Mar 25, 2026 cs.CV

이종 캐싱을 통한 확산 모델 기반 비디오 편집 가속화: 샘플링된 디노이징 타임스텝에서의 전체 연산을 넘어

Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep

Linfeng Zhang
Linfeng Zhang
Citations: 4
h-index: 1
Tianyi Liu
Tianyi Liu
Citations: 41
h-index: 3
Yeshi Lu
Yeshi Lu
Citations: 1
h-index: 1
Chen Cai
Chen Cai
Citations: 2
h-index: 1
Jianjun Gao
Jianjun Gao
Citations: 73
h-index: 5
Yi Wang
Yi Wang
Citations: 18
h-index: 2
Kim-hui Yap
Kim-hui Yap
Citations: 205
h-index: 9
Lap-Pui Chau
Lap-Pui Chau
Citations: 505
h-index: 9

확산 모델 기반 비디오 편집은 고품질 및 유연한 콘텐츠 생성에 있어 중요한 패러다임으로 부상했습니다. 그러나 확산 트랜스포머(DiT)는 뛰어난 일반성과 모델링 능력을 가지고 있음에도 불구하고, 반복적인 디노이징 과정으로 인해 계산 비용이 많이 들기 때문에 실제 적용에 어려움을 겪고 있습니다. 기존의 비디오 확산 가속화 방법은 주로 디노이징 타임스텝 레벨의 특징 재사용을 활용하여 디노이징 과정의 중복을 줄이지만, DiT 내부의 아키텍처적 중복, 즉 시공간 토큰에 대한 많은 어텐션 연산이 불필요하게 반복적으로 수행되어 모델 출력에 거의 기여하지 않는다는 점을 간과합니다. 본 연구에서는 확산 모델 기반 마스크 비디오-투-비디오(MV2V) 생성 및 편집에 내재된 이질성을 활용하도록 설계된, 학습이 필요 없는 확산 가속화 프레임워크인 HetCache를 소개합니다. HetCache는 모든 토큰을 균일하게 재사용하거나 무작위로 샘플링하는 대신, 지정된 계산 단계에서 다양한 유형의 토큰 간의 문맥적 관련성과 상호 작용 강도를 평가합니다. 공간적 사전 지식에 따라 DiT 모델 내의 시공간 토큰을 문맥 토큰과 생성 토큰으로 나누고, 생성 토큰과 가장 강한 상관관계를 가지며 가장 대표적인 의미를 나타내는 문맥 토큰을 선택적으로 캐싱합니다. 이러한 전략은 불필요한 어텐션 연산을 줄이면서 편집의 일관성과 충실도를 유지합니다. 실험 결과, HetCache는 일반적으로 사용되는 기본 모델에 비해 2.67배의 지연 시간 단축 및 FLOPs 감소를 달성하여 상당한 가속화를 이루었으며, 편집 품질 저하가 거의 없는 것으로 나타났습니다.

Original Abstract

Diffusion-based video editing has emerged as an important paradigm for high-quality and flexible content generation. However, despite their generality and strong modeling capacity, Diffusion Transformers (DiT) remain computationally expensive due to the iterative denoising process, posing challenges for practical deployment. Existing video diffusion acceleration methods primarily exploit denoising timestep-level feature reuse, which mitigates the redundancy in denoising process, but overlooks the architectural redundancy within the DiT that many attention operations over spatio-temporal tokens are redundantly executed, offering little to no incremental contribution to the model output. This work introduces HetCache, a training-free diffusion acceleration framework designed to exploit the inherent heterogeneity in diffusion-based masked video-to-video (MV2V) generation and editing. Instead of uniformly reuse or randomly sampling tokens, HetCache assesses the contextual relevance and interaction strength among various types of tokens in designated computing steps. Guided by spatial priors, it divides the spatial-temporal tokens in DiT model into context and generative tokens, and selectively caches the context tokens that exhibit the strongest correlation and most representative semantics with generative ones. This strategy reduces redundant attention operations while maintaining editing consistency and fidelity. Experiments show that HetCache achieves a noticeable acceleration, including a 2.67$\times$ latency speedup and FLOPs reduction over commonly used foundation models, with negligible degradation in editing quality.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!