VOID: 비디오 객체 및 상호작용 제거
VOID: Video Object and Interaction Deletion
기존의 비디오 객체 제거 방법은 객체 "뒤"의 내용을 채우고 그림자나 반사와 같은 외관상의 결함을 수정하는 데 뛰어나지만, 제거된 객체가 다른 객체와의 충돌과 같이 더 중요한 상호작용을 포함하는 경우, 현재 모델은 이러한 상호작용을 수정하지 못하고 비현실적인 결과를 생성합니다. 본 논문에서는 복잡한 시나리오에서 물리적으로 타당한 채우기를 수행하도록 설계된 비디오 객체 제거 프레임워크인 VOID를 제시합니다. 모델 훈련을 위해 Kubric과 HUMOTO를 사용하여 반사실적인 객체 제거에 대한 새로운 쌍으로 이루어진 데이터 세트를 생성했습니다. 이 데이터 세트에서는 객체를 제거하는 것이 하위 수준의 물리적 상호작용을 변경해야 합니다. 추론 과정에서, 비전-언어 모델은 제거된 객체의 영향을 받는 장면 영역을 식별합니다. 이러한 영역은 물리적으로 일관된 반사실적인 결과를 생성하는 비디오 확산 모델을 안내하는 데 사용됩니다. 합성 데이터와 실제 데이터를 사용한 실험 결과, 제안하는 방법은 기존의 비디오 객체 제거 방법에 비해 객체 제거 후 장면의 일관성을 더 잘 유지하는 것으로 나타났습니다. 본 프레임워크가 고급 인과 추론을 통해 비디오 편집 모델이 세계를 더 잘 시뮬레이션할 수 있도록 하는 방법에 대한 통찰력을 제공할 수 있기를 바랍니다.
Existing video object removal methods excel at inpainting content "behind" the object and correcting appearance-level artifacts such as shadows and reflections. However, when the removed object has more significant interactions, such as collisions with other objects, current models fail to correct them and produce implausible results. We present VOID, a video object removal framework designed to perform physically-plausible inpainting in these complex scenarios. To train the model, we generate a new paired dataset of counterfactual object removals using Kubric and HUMOTO, where removing an object requires altering downstream physical interactions. During inference, a vision-language model identifies regions of the scene affected by the removed object. These regions are then used to guide a video diffusion model that generates physically consistent counterfactual outcomes. Experiments on both synthetic and real data show that our approach better preserves consistent scene dynamics after object removal compared to prior video object removal methods. We hope this framework sheds light on how to make video editing models better simulators of the world through high-level causal reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.