PhyMotion: 물리학 기반 휴머 비디오 생성을 위한 구조화된 3차원 동작 보상
PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation
현실적인 인간 동작을 생성하는 것은 비디오 생성 분야의 핵심적인 과제이지만 아직 해결되지 않았습니다. 강화 학습(RL) 기반의 후처리 훈련은 최근 비디오 품질 향상에 기여했지만, 인간 동작에 적용하는 데는 신뢰성 있는 동작 현실성을 평가할 수 없는 보상 신호로 인해 어려움이 있습니다. 기존의 비디오 보상은 주로 2차원 시각적 신호에 의존하며, 관절형 인간 동작의 기반이 되는 3차원 신체 상태, 접촉, 역학을 명시적으로 모델링하지 않으며, 종종 공중에 떠 있는 신체나 물리적으로 불가능한 움직임을 가진 비디오에 높은 점수를 부여합니다. 이러한 문제를 해결하기 위해, 우리는 PhyMotion을 제안합니다. PhyMotion은 복구된 3차원 인간 경로를 물리 시뮬레이터에 기반하여 평가하고, 다양한 물리적 타당성 측면에서 동작 품질을 평가하는 구조화되고 세분화된 동작 보상 시스템입니다. 구체적으로, 생성된 비디오에서 SMPL 신체 메시를 복구하고, MuJoCo 물리 시뮬레이터의 휴머노이드에 다시 적용하여, 다음 세 가지 측면에서 동작을 평가합니다. 첫째, 운동학적 타당성, 둘째, 접촉 및 균형 일관성, 셋째, 동적 타당성입니다. 각 구성 요소는 특정 측면의 동작 품질과 관련된 연속적이고 해석 가능한 신호를 제공하여, 보상이 어떤 측면의 동작이 물리적으로 정확한지 또는 위반되었는지 파악할 수 있도록 합니다. 실험 결과, PhyMotion은 기존의 보상 방식보다 인간의 판단과 더 강한 상관관계를 보입니다. 이러한 이점은 RL 기반의 후처리 훈련에서도 나타나며, PhyMotion을 최적화하면 기존의 보상을 최적화하는 것보다 더 크고 일관된 성능 향상을 가져오며, 자동 평가 지표와 인간 평가 모두에서 동작 현실성을 향상시킵니다 (+68 Elo 향상). 추가 실험 결과, 세 가지 축은 상호 보완적인 감독 신호를 제공하며, 보상은 전체 비디오 생성 품질을 유지하면서도 비교적 적은 훈련 오버헤드만 발생시킵니다.
Generating realistic human motion is a central yet unsolved challenge in video generation. While reinforcement learning (RL)-based post-training has driven recent gains in general video quality, extending it to human motion remains bottlenecked by a reward signal that cannot reliably score motion realism. Existing video rewards primarily rely on 2D perceptual signals, without explicitly modeling the 3D body state, contact, and dynamics underlying articulated human motion, and often assign high scores to videos with floating bodies or physically implausible movements. To address this, we propose PhyMotion, a structured, fine-grained motion reward that grounds recovered 3D human trajectories in a physics simulator and evaluates motion quality along multiple dimensions of physical feasibility. Concretely, we recover SMPL body meshes from generated videos, retarget them onto a humanoid in the MuJoCo physics simulator, and evaluate the resulting motion along three axes: kinematic plausibility, contact and balance consistency, and dynamic feasibility. Each component provides a continuous and interpretable signal tied to a specific aspect of motion quality, allowing the reward to capture which aspects of motion are physically correct or violated. Experiments show that PhyMotion achieves stronger correlation with human judgments than existing reward formulations. These gains carry over to RL-based post-training, where optimizing PhyMotion leads to larger and more consistent improvements than optimizing existing rewards, improving motion realism across both autoregressive and bidirectional video generators under both automatic metrics and blind human evaluation (+68 Elo gain). Ablations show that the three axes provide complementary supervision signals, while the reward preserves overall video generation quality with only modest training overhead.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.