2605.14487v1 May 14, 2026 cs.CV

헤드 포싱: 헤드 이질성을 활용한 장기 오토리거시비드 생성

Head Forcing: Long Autoregressive Video Generation via Head Heterogeneity

Yiwei Wang
Yiwei Wang
Citations: 490
h-index: 13
Chi Zhang
Chi Zhang
Citations: 58
h-index: 5
Jiahao Tian
Jiahao Tian
Citations: 81
h-index: 3
Gang Yu
Gang Yu
Citations: 72
h-index: 4

오토리거시브 비디오 확산 모델은 실시간 합성을 지원하지만, 장기적인 관점에서 오류 누적과 문맥 손실 문제가 발생합니다. 본 연구에서는 AR 비디오 확산 트랜스포머의 어텐션 헤드가 세부 묘사 개선을 위한 로컬 헤드, 구조 안정화를 위한 앵커 헤드, 장거리 문맥 집계를 위한 메모리 헤드와 같이 기능적으로 구별되는 역할을 수행하지만, 기존 방법은 이러한 헤드들을 동일하게 취급하여 최적의 KV 캐시 할당이 이루어지지 않는다는 점을 발견했습니다. 본 연구에서는 각 헤드 유형에 최적화된 KV 캐시 전략을 할당하는 훈련이 필요 없는 프레임워크인 '헤드 포싱(Head Forcing)'을 제안합니다. 로컬 헤드와 앵커 헤드는 필수 토큰만 유지하는 반면, 메모리 헤드는 장거리 일관성을 유지하기 위해 동적 에피소드 업데이트를 사용하는 계층적 메모리 시스템을 활용합니다. 또한, 헤드별 RoPE 재인코딩 방식을 통해 위치 인코딩이 사전 훈련된 범위 내에 유지되도록 합니다. '헤드 포싱'은 추가적인 훈련 없이도 생성 시간을 5초에서 분 단위로 확장하고, 멀티 프롬프트 기반의 인터랙티브 합성을 지원하며, 기존의 방법들을 능가하는 성능을 보입니다. 프로젝트 페이지: https://jiahaotian-sjtu.github.io/headforcing.github.io/.

Original Abstract

Autoregressive video diffusion models support real-time synthesis but suffer from error accumulation and context loss over long horizons. We discover that attention heads in AR video diffusion transformers serve functionally distinct roles as local heads for detail refinement, anchor heads for structural stabilization, and memory heads for long-range context aggregation, yet existing methods treat them uniformly, leading to suboptimal KV cache allocation. We propose Head Forcing, a training-free framework that assigns each head type a tailored KV cache strategy: local and anchor heads retain only essential tokens, while memory heads employ a hierarchical memory system with dynamic episodic updates for long-range consistency. A head-wise RoPE re-encoding scheme further ensures positional encodings remain within the pretrained range. Without additional training, Head Forcing extends generation from 5 seconds to minute-level duration, supports multi-prompt interactive synthesis, and consistently outperforms existing baselines. Project Page: https://jiahaotian-sjtu.github.io/headforcing.github.io/.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!