2602.08277v1 Feb 09, 2026 cs.CV

PISCO: 정밀한 비디오 인스턴스 삽입 기술: 희소 제어 기반

PISCO: Precise Video Instance Insertion with Sparse Control

Xiangbo Gao
Xiangbo Gao
Citations: 187
h-index: 7
Renjie Li
Renjie Li
Citations: 105
h-index: 5
Xinghao Chen
Xinghao Chen
Citations: 13
h-index: 1
Yuheng Wu
Yuheng Wu
Citations: 37
h-index: 3
Suofei Feng
Suofei Feng
Citations: 0
h-index: 0
Qingyu Yin
Qingyu Yin
Citations: 19
h-index: 2
Zhengzhong Tu
Zhengzhong Tu
Citations: 7
h-index: 2

인공지능 비디오 생성 분야는 일반적인 생성 방식에서 벗어나, 정교하고 제어 가능하며 고품질의 후처리 기술을 향해 중요한 전환점을 맞이하고 있습니다. 특히, 전문적인 인공지능 지원 영화 제작에서는 정밀하고 목표 지향적인 수정이 필수적입니다. 이러한 변화의 핵심은 기존 영상에 특정 객체를 삽입하여 장면의 일관성을 유지하는 '비디오 인스턴스 삽입' 기술입니다. 이 작업은 기존의 비디오 편집과는 달리, 정확한 공간-시간적 배치, 물리적으로 일관된 장면 상호 작용, 그리고 원본 영상의 역동성을 충실하게 보존해야 하며, 이는 최소한의 사용자 노력으로 달성되어야 합니다. 본 논문에서는 희소한 키프레임 제어를 통해 정밀한 비디오 인스턴스 삽입을 가능하게 하는 비디오 디퓨전 모델인 PISCO를 제안합니다. PISCO는 사용자가 단일 키프레임, 시작-종료 키프레임 또는 임의의 타임스탬프에 위치한 희소한 키프레임을 지정하면, 객체의 외형, 움직임 및 상호 작용을 자동으로 보간합니다. 사전 학습된 비디오 디퓨전 모델에서 발생하는 심각한 분포 변화 문제를 해결하기 위해, 우리는 강력한 제어를 위한 Variable-Information Guidance 기술과 안정적인 시간적 생성을 위한 Distribution-Preserving Temporal Masking 기술을 도입했으며, 또한 현실적인 장면 적응을 위한 geometry-aware conditioning 기술을 적용했습니다. 또한, 검증된 인스턴스 어노테이션과 쌍을 이루는 깨끗한 배경 비디오를 포함하는 벤치마크인 PISCO-Bench를 구축하고, reference-based 및 reference-free 시각적 평가 지표를 사용하여 성능을 평가했습니다. 실험 결과, PISCO는 희소 제어 환경에서 강력한 inpainting 및 비디오 편집 모델들을 능가하는 성능을 보이며, 추가적인 제어 신호가 제공됨에 따라 성능이 꾸준히 향상되는 것을 확인했습니다. 프로젝트 페이지: xiangbogaobarry.github.io/PISCO.

Original Abstract

The landscape of AI video generation is undergoing a pivotal shift: moving beyond general generation - which relies on exhaustive prompt-engineering and "cherry-picking" - towards fine-grained, controllable generation and high-fidelity post-processing. In professional AI-assisted filmmaking, it is crucial to perform precise, targeted modifications. A cornerstone of this transition is video instance insertion, which requires inserting a specific instance into existing footage while maintaining scene integrity. Unlike traditional video editing, this task demands several requirements: precise spatial-temporal placement, physically consistent scene interaction, and the faithful preservation of original dynamics - all achieved under minimal user effort. In this paper, we propose PISCO, a video diffusion model for precise video instance insertion with arbitrary sparse keyframe control. PISCO allows users to specify a single keyframe, start-and-end keyframes, or sparse keyframes at arbitrary timestamps, and automatically propagates object appearance, motion, and interaction. To address the severe distribution shift induced by sparse conditioning in pretrained video diffusion models, we introduce Variable-Information Guidance for robust conditioning and Distribution-Preserving Temporal Masking to stabilize temporal generation, together with geometry-aware conditioning for realistic scene adaptation. We further construct PISCO-Bench, a benchmark with verified instance annotations and paired clean background videos, and evaluate performance using both reference-based and reference-free perceptual metrics. Experiments demonstrate that PISCO consistently outperforms strong inpainting and video editing baselines under sparse control, and exhibits clear, monotonic performance improvements as additional control signals are provided. Project page: xiangbogaobarry.github.io/PISCO.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!