레이어 적응형 O.O.D. 보정을 통한 자유로운 장비디오 생성
Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction
사전에 학습된 비디오 확산 모델은 일반적으로 짧은 클립으로 학습되므로, 이를 사용하여 장비디오를 생성하는 것은 상당한 어려움을 야기합니다. 이러한 모델을 장비디오 추론에 직접 적용하면 시각적 품질이 현저하게 저하되는 경우가 많습니다. 본 논문에서는 이러한 문제가 주로 프레임 수준의 상대적 위치 불일치(O.O.D.) 및 컨텍스트 길이 불일치(O.O.D.)라는 두 가지 문제에서 비롯된다는 점을 밝힙니다. 이러한 문제점을 해결하기 위해, 우리는 새로운 훈련이 필요 없는 레이어 적응형 프레임워크인 FreeLOC을 제안합니다. FreeLOC은 두 가지 핵심 기술을 도입합니다. 첫째, 프레임 수준의 상대적 위치 불일치를 해결하기 위한 비디오 기반 상대적 위치 재인코딩(VRPR) 기술은 다중 분해능 전략을 사용하여 시간적 상대적 위치를 계층적으로 재인코딩하여 모델의 사전 학습된 분포와 일치시킵니다. 둘째, 컨텍스트 길이 불일치를 해결하기 위한 계층적 희소 어텐션(TSA) 기술은 다양한 시간 척위에서 어텐션 밀도를 구조화하여 로컬 디테일과 장거리 의존성을 모두 유지합니다. 더욱 중요한 점은, 우리는 각 트랜스포머 레이어가 이러한 O.O.D. 문제에 얼마나 민감한지를 파악하는 레이어 적응형 탐색 메커니즘을 도입하여, 우리 방법론을 선택적이고 효율적으로 적용할 수 있도록 합니다. 광범위한 실험 결과는 우리 접근 방식이 기존의 훈련이 필요 없는 방법론보다 훨씬 우수한 성능을 발휘하며, 시간적 일관성과 시각적 품질 측면에서 최첨단 결과를 달성한다는 것을 보여줍니다. 코드 및 관련 정보는 다음 링크에서 확인할 수 있습니다: https://github.com/Westlake-AGI-Lab/FreeLOC.
Generating long videos using pre-trained video diffusion models, which are typically trained on short clips, presents a significant challenge. Directly applying these models for long-video inference often leads to a notable degradation in visual quality. This paper identifies that this issue primarily stems from two out-of-distribution (O.O.D) problems: frame-level relative position O.O.D and context-length O.O.D. To address these challenges, we propose FreeLOC, a novel training-free, layer-adaptive framework that introduces two core techniques: Video-based Relative Position Re-encoding (VRPR) for frame-level relative position O.O.D, a multi-granularity strategy that hierarchically re-encodes temporal relative positions to align with the model's pre-trained distribution, and Tiered Sparse Attention (TSA) for context-length O.O.D, which preserves both local detail and long-range dependencies by structuring attention density across different temporal scales. Crucially, we introduce a layer-adaptive probing mechanism that identifies the sensitivity of each transformer layer to these O.O.D issues, allowing for the selective and efficient application of our methods. Extensive experiments demonstrate that our approach significantly outperforms existing training-free methods, achieving state-of-the-art results in both temporal consistency and visual quality. Code is available at https://github.com/Westlake-AGI-Lab/FreeLOC.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.