MVHOI: 3D 기반 모델을 활용한 다중 시점 조건부 복잡한 인간-객체 상호작용 비디오 재현
MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model
현실적인 움직임을 갖춘 인간-객체 상호작용(HOI) 비디오 재현은 표현력이 뛰어난 디지털 휴먼 제작 분야에서 중요한 과제입니다. 기존 방법들은 주로 이미지 평면에서의 간단한 움직임(예: 평면 내 이동)만을 처리하며, 평면 외의 복잡한 조작, 예를 들어 공간적 재배치와 같은 움직임을 처리하는 데 어려움을 겪습니다. 본 논문에서는 다중 시점 참조 조건을 비디오 기반 모델과 연결하는 3D 기반 모델(3DFM)을 활용한 두 단계의 HOI 비디오 재현 프레임워크인 MVHOI를 제안합니다. 3DFM은 먼저 새로운 시점에서 일관성 있는 객체 정보를 생성하며, 이를 통해 암시적 움직임 동역학에 따라 객체의 자세를 조정합니다. 제어 가능한 비디오 생성 모델은 다중 시점 참조 이미지를 통합하여 고품질의 객체 텍스처를 합성하고, 합리적인 검색 메커니즘을 통해 외관 일관성을 보장합니다. 이러한 두 단계가 추론 단계에서 서로 강화되도록 설계하여, 저희 프레임워크는 복잡한 객체 조작을 포함하는 장시간의 HOI 비디오를 생성하는 데 뛰어난 성능을 보입니다. 광범위한 실험 결과는 기존 방법들에 비해 상당한 성능 향상을 보여주며, 특히 복잡한 3D 객체 조작이 포함된 HOI에서 더욱 두드러진 개선 효과를 확인했습니다.
Human-Object Interaction (HOI) video reenactment with realistic motion remains a frontier in expressive digital human creation. Existing approaches primarily handle simple image-plane motion (e.g., in-plane translations), struggling with complex non-planar manipulations like out-of-plane reorientation. In this paper, we propose MVHOI, a two-stage HOI video reenactment framework that bridges multi-view reference conditions and video foundation models via a 3D Foundation Model (3DFM). The 3DFM first produces view-consistent object priors conditioned on implicit motion dynamics across novel viewpoints. A controllable video generation model then synthesizes high-fidelity object texture by incorporating multi-view reference images, ensuring appearance consistency via a reasonable retrieval mechanism. By enabling these two stages to mutually reinforce one another during the inference phase, our framework shows superior performance in generating long-duration HOI videos with intricate object manipulations. Extensive experiments show substantial improvements over prior approaches, especially for HOI with complex 3D object manipulations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.