2604.00977v1 Apr 01, 2026 cs.LG

트랙토리 최적화에서의 분포 기반 강화 학습을 활용한 플로우 기반 정책

Flow-based Policy With Distributional Reinforcement Learning in Trajectory Optimization

Ru Hao
Ru Hao
Citations: 0
h-index: 0
Longfei Zhang
Longfei Zhang
Citations: 19
h-index: 3
Yang Dai
Yang Dai
Citations: 43
h-index: 4
Yang Ma
Yang Ma
Citations: 151
h-index: 7
Xingxing Liang
Xingxing Liang
Citations: 19
h-index: 3
Guang Cheng
Guang Cheng
Citations: 23
h-index: 3

강화 학습(RL)은 복잡한 제어 및 의사 결정 작업에 매우 효과적인 것으로 입증되었습니다. 그러나 대부분의 기존 강화 학습 알고리즘에서 정책은 일반적으로 대각 가우시안 분포로 매개변수화되는데, 이는 정책이 다중 모드 분포를 포착하는 것을 제한하며, 다중 해 문제를 해결할 때 최적 해의 전체 범위를 다루기 어렵게 만듭니다. 또한, 보상은 평균값으로 축소되어 다중 모드 특성을 잃고, 따라서 정책 업데이트에 충분한 지침을 제공하지 못합니다. 이러한 문제에 대응하기 위해, 우리는 분포 기반 강화 학습(FP-DRL)을 활용한 플로우 기반 정책 알고리즘을 제안합니다. 이 알고리즘은 정책을 플로우 매칭을 사용하여 모델링하며, 이는 계산 효율성과 복잡한 분포를 학습할 수 있는 능력을 모두 제공합니다. 또한, 전체 보상 분포를 모델링하고 최적화하기 위해 분포 기반 강화 학습 접근 방식을 사용함으로써, 다중 모드 정책 업데이트를 보다 효과적으로 안내하고 에이전트의 성능을 향상시킵니다. MuJoCo 벤치마크에서의 실험 결과는 FP-DRL 알고리즘이 대부분의 MuJoCo 제어 작업에서 최첨단(SOTA) 성능을 달성하며, 플로우 정책의 우수한 표현 능력을 보여준다는 것을 입증합니다.

Original Abstract

Reinforcement Learning (RL) has proven highly effective in addressing complex control and decision-making tasks. However, in most traditional RL algorithms, the policy is typically parameterized as a diagonal Gaussian distribution, which constrains the policy from capturing multimodal distributions, making it difficult to cover the full range of optimal solutions in multi-solution problems, and the return is reduced to a mean value, losing its multimodal nature and thus providing insufficient guidance for policy updates. In response to these problems, we propose a RL algorithm termed flow-based policy with distributional RL (FP-DRL). This algorithm models the policy using flow matching, which offers both computational efficiency and the capacity to fit complex distributions. Additionally, it employs a distributional RL approach to model and optimize the entire return distribution, thereby more effectively guiding multimodal policy updates and improving agent performance. Experimental trails on MuJoCo benchmarks demonstrate that the FP-DRL algorithm achieves state-of-the-art (SOTA) performance in most MuJoCo control tasks while exhibiting superior representation capability of the flow policy.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!