2604.07348v1 Apr 08, 2026 cs.CV

MoRight: 올바른 모션 제어

MoRight: Motion Control Done Right

Xuanchi Ren
Xuanchi Ren
Citations: 674
h-index: 12
Tianchang Shen
Tianchang Shen
University of Toronto;Vector Institute
Citations: 2,564
h-index: 15
Huan Ling
Huan Ling
Citations: 5,625
h-index: 28
Jun Gao
Jun Gao
Citations: 626
h-index: 9
Sanja Fidler
Sanja Fidler
Citations: 2,076
h-index: 20
Shaowei Liu
Shaowei Liu
Citations: 232
h-index: 3
Saurabh Gupta
Saurabh Gupta
Citations: 232
h-index: 3
Shenlong Wang
Shenlong Wang
Citations: 258
h-index: 4
Nvidia
Nvidia
Citations: 1,508
h-index: 10
Frames Frames
Frames Frames
Citations: 0
h-index: 0

사용자가 지정한 동작이 자연스러운 장면 변화를 유발하며, 사용자가 자유롭게 선택한 시점에서 표현되는 모션 제어 비디오를 생성하려면 두 가지 능력이 필요합니다. (1) 분리된 모션 제어: 사용자가 객체의 움직임과 카메라 시점을 독립적으로 제어할 수 있어야 합니다. (2) 모션 인과 관계: 사용자의 동작으로 인해 다른 객체들이 일관성 있는 반응을 보이도록 해야 하며, 단순히 픽셀을 이동시키는 것이 아니라 원인과 결과 관계를 반영해야 합니다. 기존 방법들은 이 두 가지 측면 모두에서 부족합니다. 기존 방법들은 카메라와 객체의 움직임을 하나의 추적 신호로 묶고, 객체 간의 인과 관계를 모델링하지 않고 단순히 운동학적 변위로 움직임을 처리합니다. 우리는 MoRight라는 통합 프레임워크를 제안합니다. MoRight는 분리된 모션 모델링을 통해 이러한 한계점을 극복합니다. 객체의 움직임은 표준적인 정적 시점에서 정의되고, 시간적 크로스-뷰 어텐션을 통해 임의의 대상 카메라 시점으로 전송되어, 카메라와 객체의 움직임을 분리하여 제어할 수 있습니다. 또한, 우리는 움직임을 능동적인(사용자 주도) 요소와 수동적인(결과) 요소로 분해하고, 모델이 데이터로부터 모션 인과 관계를 학습하도록 훈련했습니다. 추론 단계에서 사용자는 능동적인 움직임을 제공하면 MoRight가 그에 따른 결과를 예측하거나(순방향 추론), 원하는 수동적인 결과를 지정하면 MoRight가 그에 합당한 동작을 찾아냅니다(역방향 추론). 이러한 모든 과정에서 사용자는 카메라 시점을 자유롭게 조절할 수 있습니다. 세 가지 벤치마크 실험 결과, MoRight는 생성 품질, 모션 제어성, 상호 작용 인식 측면에서 최고 수준의 성능을 보여주었습니다.

Original Abstract

Generating motion-controlled videos--where user-specified actions drive physically plausible scene dynamics under freely chosen viewpoints--demands two capabilities: (1) disentangled motion control, allowing users to separately control the object motion and adjust camera viewpoint; and (2) motion causality, ensuring that user-driven actions trigger coherent reactions from other objects rather than merely displacing pixels. Existing methods fall short on both fronts: they entangle camera and object motion into a single tracking signal and treat motion as kinematic displacement without modeling causal relationships between object motion. We introduce MoRight, a unified framework that addresses both limitations through disentangled motion modeling. Object motion is specified in a canonical static-view and transferred to an arbitrary target camera viewpoint via temporal cross-view attention, enabling disentangled camera and object control. We further decompose motion into active (user-driven) and passive (consequence) components, training the model to learn motion causality from data. At inference, users can either supply active motion and MoRight predicts consequences (forward reasoning), or specify desired passive outcomes and MoRight recovers plausible driving actions (inverse reasoning), all while freely adjusting the camera viewpoint. Experiments on three benchmarks demonstrate state-of-the-art performance in generation quality, motion controllability, and interaction awareness.

0 Citations
0 Influential
14 Altmetric
70.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!