2603.14686v1 Mar 16, 2026 cs.CV

MVHOI: 3D 기반 모델을 활용한 다중 시점 조건부 복잡한 인간-객체 상호작용 비디오 재현

MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model

Jinguang Tong
Jinguang Tong
Citations: 7
h-index: 1
Jinbo Wu
Jinbo Wu
Citations: 115
h-index: 6
Kaisiyuan Wang
Kaisiyuan Wang
Citations: 1,374
h-index: 12
Zhelun Shen
Zhelun Shen
Citations: 0
h-index: 0
Mochu Xiang
Mochu Xiang
Citations: 252
h-index: 8
Hao Feng
Hao Feng
Citations: 9
h-index: 2
Hang Zhou
Hang Zhou
Citations: 56
h-index: 3
Wei He
Wei He
Citations: 8
h-index: 2
Hongdong Li
Hongdong Li
Citations: 102
h-index: 4
Xuan Huang
Xuan Huang
Citations: 8
h-index: 2
Xuesong Li
Xuesong Li
Citations: 8
h-index: 1
Yingying Li
Yingying Li
Citations: 31
h-index: 3
Chen Zhao
Chen Zhao
Citations: 390
h-index: 10
Chuong Nguyen
Chuong Nguyen
Citations: 20
h-index: 3
Jingdong Wang
Jingdong Wang
Citations: 40
h-index: 4

현실적인 움직임을 갖춘 인간-객체 상호작용(HOI) 비디오 재현은 표현력이 뛰어난 디지털 휴먼 제작 분야에서 중요한 과제입니다. 기존 방법들은 주로 이미지 평면에서의 간단한 움직임(예: 평면 내 이동)만을 처리하며, 평면 외의 복잡한 조작, 예를 들어 공간적 재배치와 같은 움직임을 처리하는 데 어려움을 겪습니다. 본 논문에서는 다중 시점 참조 조건을 비디오 기반 모델과 연결하는 3D 기반 모델(3DFM)을 활용한 두 단계의 HOI 비디오 재현 프레임워크인 MVHOI를 제안합니다. 3DFM은 먼저 새로운 시점에서 일관성 있는 객체 정보를 생성하며, 이를 통해 암시적 움직임 동역학에 따라 객체의 자세를 조정합니다. 제어 가능한 비디오 생성 모델은 다중 시점 참조 이미지를 통합하여 고품질의 객체 텍스처를 합성하고, 합리적인 검색 메커니즘을 통해 외관 일관성을 보장합니다. 이러한 두 단계가 추론 단계에서 서로 강화되도록 설계하여, 저희 프레임워크는 복잡한 객체 조작을 포함하는 장시간의 HOI 비디오를 생성하는 데 뛰어난 성능을 보입니다. 광범위한 실험 결과는 기존 방법들에 비해 상당한 성능 향상을 보여주며, 특히 복잡한 3D 객체 조작이 포함된 HOI에서 더욱 두드러진 개선 효과를 확인했습니다.

Original Abstract

Human-Object Interaction (HOI) video reenactment with realistic motion remains a frontier in expressive digital human creation. Existing approaches primarily handle simple image-plane motion (e.g., in-plane translations), struggling with complex non-planar manipulations like out-of-plane reorientation. In this paper, we propose MVHOI, a two-stage HOI video reenactment framework that bridges multi-view reference conditions and video foundation models via a 3D Foundation Model (3DFM). The 3DFM first produces view-consistent object priors conditioned on implicit motion dynamics across novel viewpoints. A controllable video generation model then synthesizes high-fidelity object texture by incorporating multi-view reference images, ensuring appearance consistency via a reasonable retrieval mechanism. By enabling these two stages to mutually reinforce one another during the inference phase, our framework shows superior performance in generating long-duration HOI videos with intricate object manipulations. Extensive experiments show substantial improvements over prior approaches, especially for HOI with complex 3D object manipulations.

1 Citations
0 Influential
6 Altmetric
31.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!