2604.08121v1 Apr 09, 2026 cs.CV

Uni-ViGU: 확산 모델 기반 비디오 생성기를 활용한 통합 비디오 생성 및 이해를 향하여

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

Zhiyu Tan
Zhiyu Tan
Citations: 889
h-index: 15
Qian Qiao
Qian Qiao
Citations: 10
h-index: 1
Li Xu
Li Xu
Citations: 0
h-index: 0
Chao Qu
Chao Qu
Citations: 312
h-index: 6
Luozheng Qin
Luozheng Qin
Citations: 133
h-index: 5
Jianqiao Gong
Jianqiao Gong
Citations: 14
h-index: 1
Haoyu Pan
Haoyu Pan
Citations: 51
h-index: 5
Tianjiao Li
Tianjiao Li
Citations: 85
h-index: 4
Hao Li
Hao Li
Citations: 141
h-index: 3

시각적 이해와 생성을 통합하는 다중 모드 모델은 근본적인 어려움에 직면하는데, 특히 비디오의 경우 생성은 이해보다 훨씬 더 높은 계산 비용을 수반합니다. 이러한 불균형은 기존의 패러다임을 역전시키는 동기를 부여하며, 우리는 Uni-ViGU라는 프레임워크를 제안합니다. Uni-ViGU는 비디오 생성기를 기반으로 비디오 생성과 이해를 통합합니다. 우리는 단일 프로세스 내에서 비디오에 대한 연속 흐름 매칭과 텍스트에 대한 이산 흐름 매칭을 수행하는 통합 흐름 방법을 도입하여 일관성 있는 다중 모드 생성을 가능하게 합니다. 또한, 텍스트 생성에 가벼운 레이어를 추가하여 Transformer 블록을 강화하고 생성적 사전 지식을 유지하는 모달리티 기반 MoE (Mixture of Experts) 프레임워크를 제안합니다. 생성 지식을 이해에 활용하기 위해, 우리는 지식 회복(Knowledge Recall)과 능력 개선(Capability Refinement)이라는 두 단계로 구성된 양방향 훈련 메커니즘을 설계합니다. 지식 회복은 학습된 텍스트-비디오 대응 관계를 활용하여 입력 프롬프트를 재구성하고, 능력 개선은 상세한 캡션을 사용하여 판별 가능한 공유 표현을 구축합니다. 실험 결과는 Uni-ViGU가 비디오 생성 및 이해 모두에서 경쟁력 있는 성능을 달성하며, 생성 중심 아키텍처가 통합 다중 모드 지능으로 나아가는 확장 가능한 경로임을 입증합니다. 프로젝트 페이지 및 코드: https://fr0zencrane.github.io/uni-vigu-page/.

Original Abstract

Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!