비디오 디퓨저 모델에서 인과성은 디노이징 과정과 분리될 수 있다.
Causality in Video Diffusers is Separable from Denoising
인과성은 시간적이고 단방향적인 원인-결과 관계를 의미하며, 비디오, 언어, 로봇의 궤적을 포함한 많은 복잡한 생성 과정의 근간을 이룬다. 현재의 인과적 디퓨전 모델은 시간적 추론을 반복적인 디노이징 과정과 결합하여, 모든 레이어에서, 모든 디노이징 단계에서, 그리고 전체 컨텍스트에 걸쳐 인과적 어텐션을 적용한다. 본 논문에서는 이러한 모델에서 인과적 추론이 다단계 디노이징 과정과 분리될 수 있음을 보여준다. 자동 회귀 비디오 디퓨저 모델에 대한 체계적인 분석을 통해, 두 가지 중요한 규칙성을 발견했다. 첫째, 초기 레이어는 디노이징 단계에 걸쳐 매우 유사한 특징을 생성하며, 이는 디퓨전 과정에서 중복적인 계산을 나타낸다. 둘째, 더 깊은 레이어는 희소한 프레임 간 어텐션을 보이며, 주로 프레임 내 렌더링을 수행한다. 이러한 발견에 기반하여, 본 논문에서는 Separable Causal Diffusion (SCD)이라는 새로운 아키텍처를 제안한다. SCD는 인과적 트랜스포머 인코더를 통해 프레임별 시간적 추론을, 경량화된 디퓨전 디코더를 통해 다단계 프레임별 렌더링을 명시적으로 분리한다. 합성 데이터와 실제 데이터셋 모두에서 사전 훈련 및 사후 훈련 작업을 통해 수행한 광범위한 실험 결과, SCD는 처리량과 프레임별 지연 시간을 크게 향상시키면서, 강력한 인과적 디퓨전 모델의 생성 품질과 동등하거나 그 이상의 성능을 보였다.
Causality -- referring to temporal, uni-directional cause-effect relationships between components -- underlies many complex generative processes, including videos, language, and robot trajectories. Current causal diffusion models entangle temporal reasoning with iterative denoising, applying causal attention across all layers, at every denoising step, and over the entire context. In this paper, we show that the causal reasoning in these models is separable from the multi-step denoising process. Through systematic probing of autoregressive video diffusers, we uncover two key regularities: (1) early layers produce highly similar features across denoising steps, indicating redundant computation along the diffusion trajectory; and (2) deeper layers exhibit sparse cross-frame attention and primarily perform intra-frame rendering. Motivated by these findings, we introduce Separable Causal Diffusion (SCD), a new architecture that explicitly decouples once-per-frame temporal reasoning, via a causal transformer encoder, from multi-step frame-wise rendering, via a lightweight diffusion decoder. Extensive experiments on both pretraining and post-training tasks across synthetic and real benchmarks show that SCD significantly improves throughput and per-frame latency while matching or surpassing the generation quality of strong causal diffusion baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.