2603.13228v2 Mar 13, 2026 cs.LG

PhysMoDPO: 선호도 최적화를 통한 물리적으로 타당한 휴머노이드 동작

PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization

Fabio Pizzati
Fabio Pizzati
Citations: 225
h-index: 6
Ivan Laptev
Ivan Laptev
Citations: 8
h-index: 2
Yangsong Zhang
Yangsong Zhang
Citations: 30
h-index: 4
Anujith Muraleedharan
Anujith Muraleedharan
Citations: 30
h-index: 2
Rikhat Akizhanov
Rikhat Akizhanov
Citations: 5
h-index: 1
Abdul Ahad Butt
Abdul Ahad Butt
Citations: 0
h-index: 0
G. Varol
G. Varol
Citations: 67
h-index: 3
Pascal Fua
Pascal Fua
Citations: 96
h-index: 2

최근 텍스트 기반 휴머노이드 동작 생성 분야의 발전은 주로 대규모 휴머노이드 동작 데이터로 학습된 확산 모델에 의해 주도되었습니다. 이러한 발전과 더불어, 최근 연구에서는 전신 제어기(WBC)를 사용하여 확산 모델이 생성한 동작을 실행 가능한 경로로 변환함으로써 이러한 모델을 캐릭터 애니메이션 및 실제 로봇 제어에 적용하려는 시도가 이루어지고 있습니다. WBC 경로가 물리 법칙을 준수하게 되지만, 원래 동작과 상당한 차이를 나타낼 수 있습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 직접 선호도 최적화(Direct Preference Optimization) 프레임워크인 PhysMoDPO를 제안합니다. 기존 연구가 발 슬라이드 페널티와 같은 수동으로 설계된 물리 기반 휴리스틱에 의존하는 반면, 우리는 WBC를 학습 파이프라인에 통합하고 확산 모델을 최적화하여 WBC의 출력 결과가 물리 법칙과 원래 텍스트 지침 모두를 준수하도록 합니다. PhysMoDPO를 학습하기 위해, 우리는 물리 기반 및 작업별 보상을 활용하여 생성된 경로에 선호도를 부여합니다. 텍스트-투-모션 및 공간 제어 작업에 대한 광범위한 실험 결과, PhysMoDPO는 시뮬레이션 로봇에서 물리적 현실성과 작업 관련 지표 모두에서 일관된 성능 향상을 보여줍니다. 또한, PhysMoDPO는 시뮬레이션 환경에서의 제로샷 동작 전송 및 실제 G1 휴머노이드 로봇에 적용했을 때 상당한 성능 향상을 가져옴을 보여줍니다.

Original Abstract

Recent progress in text-conditioned human motion generation has been largely driven by diffusion models trained on large-scale human motion data. Building on this progress, recent methods attempt to transfer such models for character animation and real robot control by applying a Whole-Body Controller (WBC) that converts diffusion-generated motions into executable trajectories. While WBC trajectories become compliant with physics, they may expose substantial deviations from original motion. To address this issue, we here propose PhysMoDPO, a Direct Preference Optimization framework. Unlike prior work that relies on hand-crafted physics-aware heuristics such as foot-sliding penalties, we integrate WBC into our training pipeline and optimize diffusion model such that the output of WBC becomes compliant both with physics and original text instructions. To train PhysMoDPO we deploy physics-based and task-specific rewards and use them to assign preference to synthesized trajectories. Our extensive experiments on text-to-motion and spatial control tasks demonstrate consistent improvements of PhysMoDPO in both physical realism and task-related metrics on simulated robots. Moreover, we demonstrate that PhysMoDPO results in significant improvements when applied to zero-shot motion transfer in simulation and for real-world deployment on a G1 humanoid robot.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!