2602.02481v1 Feb 02, 2026 cs.RO

로봇 제어를 위한 플로우 정책 그래디언트

Flow Policy Gradients for Robot Control

Xiaoyu Huang
Xiaoyu Huang
Citations: 100
h-index: 4
Pieter Abbeel
Pieter Abbeel
Citations: 129
h-index: 6
Rocky Duan
Rocky Duan
Citations: 111
h-index: 5
Angjoo Kanazawa
Angjoo Kanazawa
Citations: 22,820
h-index: 55
Carmelo Sferrazza
Carmelo Sferrazza
Citations: 1,155
h-index: 19
Guanya Shi
Guanya Shi
Citations: 132
h-index: 6
Brent Yi
Brent Yi
Citations: 1,888
h-index: 16
Hongsuk Choi
Hongsuk Choi
Citations: 148
h-index: 5
Himanshu Gaurav Singh
Himanshu Gaurav Singh
Citations: 76
h-index: 2
Takara Truong
Takara Truong
Citations: 124
h-index: 2
Yi Ma
Yi Ma
Citations: 46
h-index: 2
Karen Liu
Karen Liu
Citations: 1
h-index: 1

보상 기반 로봇 제어 정책 학습에 있어, likelihood 기반 정책 그래디언트 방법이 널리 사용됩니다. 이러한 방법들은 미분 가능한 액션 likelihood에 의존하며, 이는 정책의 출력을 가우시안과 같은 간단한 분포로 제한합니다. 본 연구에서는 likelihood 계산을 우회하는 최근 프레임워크인 플로우 매칭 정책 그래디언트가, 까다로운 로봇 제어 환경에서 더 표현력이 풍부한 정책을 학습하고 미세 조정하는 데 효과적으로 활용될 수 있음을 보여줍니다. 우리는 다리 달린 로봇의 보행, 인간형 로봇의 모션 트래킹, 그리고 조작 작업에서 성공적인 결과를 얻을 수 있는 개선된 목적 함수를 제시합니다. 또한, 두 대의 인간형 로봇에 대한 강력한 시뮬레이션-실제 이전(sim-to-real transfer) 결과를 보여줍니다. 마지막으로, 학습 역학에 대한 ablation 및 분석을 제시합니다. 결과는 정책이 처음부터 학습할 때 탐색을 위해 플로우 표현을 활용할 수 있으며, 기존 방법 대비 더 안정적인 미세 조정 성능을 제공한다는 것을 보여줍니다.

Original Abstract

Likelihood-based policy gradient methods are the dominant approach for training robot control policies from rewards. These methods rely on differentiable action likelihoods, which constrain policy outputs to simple distributions like Gaussians. In this work, we show how flow matching policy gradients -- a recent framework that bypasses likelihood computation -- can be made effective for training and fine-tuning more expressive policies in challenging robot control settings. We introduce an improved objective that enables success in legged locomotion, humanoid motion tracking, and manipulation tasks, as well as robust sim-to-real transfer on two humanoid robots. We then present ablations and analysis on training dynamics. Results show how policies can exploit the flow representation for exploration when training from scratch, as well as improved fine-tuning robustness over baselines.

2 Citations
0 Influential
27.5 Altmetric
139.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!