어떤 시점에 주의 집중을 고정해야 하는가: 비디오 디퓨전 모델에서의 학습 불필요한 KV 제어
When to Lock Attention: Training-Free KV Control in Video Diffusion
비디오 편집에서 배경 일관성을 유지하면서 전경 품질을 향상시키는 것은 핵심적인 과제입니다. 전체 이미지 정보를 주입하면 종종 배경 왜곡이 발생하고, 반면 엄격한 배경 고정은 모델의 전경 생성 능력을 심각하게 제한합니다. 이러한 문제를 해결하기 위해, DiT 기반 비디오 디퓨전 모델에 특화된 학습이 필요 없는 프레임워크인 KV-Lock을 제안합니다. 우리의 핵심 아이디어는 디노이징 예측의 분산(hallucination metric)이 생성 다양성을 직접적으로 나타내며, 이는 분류기-프리 가이드(CFG) 스케일과 본질적으로 연결되어 있다는 것입니다. 이를 바탕으로, KV-Lock은 디퓨전 환각 감지를 활용하여 두 가지 주요 구성 요소의 동적 스케줄링을 수행합니다. 즉, 캐시된 배경 키-값(KVs)과 새로 생성된 KVs 사이의 융합 비율, 그리고 CFG 스케일입니다. 환각 위험이 감지되면, KV-Lock은 배경 KV 고정을 강화하고 동시에 전경 생성을 위한 조건부 가이드를 증폭시켜, 왜곡을 줄이고 생성 품질을 향상시킵니다. KV-Lock은 학습이 필요 없는 플러그 앤 플레이 모듈로서, 기존의 사전 훈련된 DiT 기반 모델에 쉽게 통합될 수 있습니다. 광범위한 실험 결과, 저희 방법이 다양한 비디오 편집 작업에서 기존 방식보다 향상된 전경 품질과 높은 배경 충실도를 제공한다는 것을 확인했습니다.
Maintaining background consistency while enhancing foreground quality remains a core challenge in video editing. Injecting full-image information often leads to background artifacts, whereas rigid background locking severely constrains the model's capacity for foreground generation. To address this issue, we propose KV-Lock, a training-free framework tailored for DiT-based video diffusion models. Our core insight is that the hallucination metric (variance of denoising prediction) directly quantifies generation diversity, which is inherently linked to the classifier-free guidance (CFG) scale. Building upon this, KV-Lock leverages diffusion hallucination detection to dynamically schedule two key components: the fusion ratio between cached background key-values (KVs) and newly generated KVs, and the CFG scale. When hallucination risk is detected, KV-Lock strengthens background KV locking and simultaneously amplifies conditional guidance for foreground generation, thereby mitigating artifacts and improving generation fidelity. As a training-free, plug-and-play module, KV-Lock can be easily integrated into any pre-trained DiT-based models. Extensive experiments validate that our method outperforms existing approaches in improved foreground quality with high background fidelity across various video editing tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.