UniVid: 고품질 비디오 생성을 위한 피라미드 확산 모델
UniVid: Pyramid Diffusion Model for High Quality Video Generation
확산 모델 기반의 텍스트-비디오(T2V) 생성 또는 이미지-비디오(I2V) 생성은 중요한 연구 분야로 떠오르고 있습니다. 하지만, 이 두 가지 생성 방식을 하나의 통합 모델로 구현하는 데 어려움이 존재합니다. 본 논문에서는 텍스트 프롬프트와 참조 이미지를 결합한 하이브리드 조건을 사용하는 통합 비디오 생성 모델(UniVid)을 제안합니다. 저희 모델은 주어진 두 가지 입력 정보를 활용하여 텍스트 프롬프트로부터 객체의 외형과 움직임에 대한 설명을 추출하고, 이미지 정보를 통해 질감 세부 정보와 구조 정보를 획득하여 비디오 생성 과정을 안내합니다. 구체적으로, 저희는 사전 훈련된 텍스트-이미지 확산 모델을 확장하여 시간적으로 일관된 프레임을 생성하기 위해, 저희가 개발한 시간 피라미드 기반의 프레임 간 공간-시간 주의 메커니즘과 컨볼루션 모듈을 도입했습니다. 또한, 이중 모드 제어를 지원하기 위해, 듀얼 스트림 주의 메커니즘을 도입했으며, 이 메커니즘의 주의 점수는 추론 과정에서 단일 모드 또는 두 모드 제어 사이의 보간을 위해 자유롭게 조정될 수 있습니다. 광범위한 실험 결과는 저희 모델인 UniVid가 T2V, I2V 및 (T+I)2V 작업에서 뛰어난 시간적 일관성을 달성함을 보여줍니다.
Diffusion-based text-to-video generation (T2V) or image-to-video (I2V) generation have emerged as a prominent research focus. However, there exists a challenge in integrating the two generative paradigms into a unified model. In this paper, we present a unified video generation model (UniVid) with hybrid conditions of the text prompt and reference image. Given these two available controls, our model can extract objects' appearance and their motion descriptions from textual prompts, while obtaining texture details and structural information from image clues to guide the video generation process. Specifically, we scale up the pre-trained text-to-image diffusion model for generating temporally coherent frames via introducing our temporal-pyramid cross-frame spatial-temporal attention modules and convolutions. To support bimodal control, we introduce a dual-stream cross-attention mechanism, whose attention scores can be freely re-weighted for interpolation of between single and two modalities controls during inference. Extensive experiments showcase that our UniVid achieves superior temporal coherence on T2V, I2V and (T+I)2V tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.