2601.17756v2 Jan 25, 2026 cs.CV

MV-S2V: 다중 시점 기반 주체 일관성 비디오 생성

MV-S2V: Multi-View Subject-Consistent Video Generation

Ziyang Song
Ziyang Song
Citations: 8
h-index: 2
Xinyu Gong
Xinyu Gong
Citations: 9
h-index: 2
Bangya Liu
Bangya Liu
University of Wisconsin-Madison
Citations: 38
h-index: 3
Zelin Zhao
Zelin Zhao
Citations: 9
h-index: 2

기존의 주체-비디오 생성(S2V) 방법들은 높은 품질과 주체 일관성을 가진 비디오 생성을 달성했지만, 단일 시점의 주체 참조에만 제한됩니다. 이러한 제한은 S2V 작업을 주체-이미지(S2I) + 이미지-비디오(I2V) 파이프라인으로 단순화하게 만들며, 비디오 주체 제어의 잠재력을 충분히 활용하지 못합니다. 본 연구에서는 다중 시점 S2V(MV-S2V)라는 어려운 문제를 제안하고 해결합니다. MV-S2V는 여러 시점의 참조 이미지를 사용하여 3차원 수준의 주체 일관성을 강화하는 비디오를 생성합니다. 훈련 데이터 부족 문제를 해결하기 위해, 먼저 고도로 맞춤화된 합성 데이터를 생성하는 합성 데이터 큐레이션 파이프라인을 개발하고, MV-S2V 훈련을 향상시키기 위해 소규모의 실제 데이터를 추가합니다. 또 다른 중요한 문제는 조건부 생성 과정에서 서로 다른 주체와 동일한 주체의 서로 다른 시점 간의 혼동 가능성입니다. 이를 극복하기 위해, 참조 조건 설정 시 서로 다른 주체와 동일한 주체의 서로 다른 시점을 구별하기 위해 Temporal Shifted RoPE (TS-RoPE)를 도입합니다. 제안하는 프레임워크는 다중 시점 참조 이미지에 대한 우수한 3차원 주체 일관성과 고품질 시각적 결과를 제공하며, 주체 기반 비디오 생성 분야에 새로운 의미 있는 방향을 제시합니다. 프로젝트 페이지는 다음 링크에서 확인할 수 있습니다: https://szy-young.github.io/mv-s2v

Original Abstract

Existing Subject-to-Video Generation (S2V) methods have achieved high-fidelity and subject-consistent video generation, yet remain constrained to single-view subject references. This limitation renders the S2V task reducible to an S2I + I2V pipeline, failing to exploit the full potential of video subject control. In this work, we propose and address the challenging Multi-View S2V (MV-S2V) task, which synthesizes videos from multiple reference views to enforce 3D-level subject consistency. Regarding the scarcity of training data, we first develop a synthetic data curation pipeline to generate highly customized synthetic data, complemented by a small-scale real-world captured dataset to boost the training of MV-S2V. Another key issue lies in the potential confusion between cross-subject and cross-view references in conditional generation. To overcome this, we further introduce Temporally Shifted RoPE (TS-RoPE) to distinguish between different subjects and distinct views of the same subject in reference conditioning. Our framework achieves superior 3D subject consistency w.r.t. multi-view reference images and high-quality visual outputs, establishing a new meaningful direction for subject-driven video generation. Our project page is available at: https://szy-young.github.io/mv-s2v

3 Citations
0 Influential
1.5 Altmetric
10.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!