모델 기반 강화 학습을 위한 어드밴티지 기반 확산 모델
Advantage-Guided Diffusion for Model-Based Reinforcement Learning
자기회귀 세계 모델을 사용하는 모델 기반 강화 학습(MBRL)은 오차의 누적 문제에 시달리지만, 확산 세계 모델은 경로 단편을 동시에 생성하여 이 문제를 완화합니다. 그러나 기존의 확산 모델 가이드 방식은 정책만을 사용하거나, 가치 정보를 무시하거나, 보상을 기반으로 하며, 이 경우 확산 모델의 수명이 짧으면 근시적인 문제가 발생합니다. 본 연구에서는 모델 기반 강화 학습(MBRL)을 위한 어드밴티지 기반 확산 모델(AGD-MBRL)을 제안합니다. AGD-MBRL은 에이전트의 어드밴티지 추정치를 활용하여 역확산 과정을 제어함으로써, 생성된 구간을 넘어 더 높은 장기 보상을 얻을 것으로 예상되는 경로에 샘플링이 집중되도록 합니다. 본 연구에서는 (i) 시그모이드 어드밴티지 가이드(SAG)와 (ii) 지수 어드밴티지 가이드(EAG)라는 두 가지 가이드 방식을 개발했습니다. SAG 또는 EAG를 통해 가이드된 확산 모델은 표준적인 가정 하에서, 상태-행동 어드밴티지가 증가하는 경로를 재가중 샘플링할 수 있도록 함으로써, 정책 개선을 가능하게 함을 증명했습니다. 또한, AGD-MBRL에서 생성된 경로는 가이드되지 않은 확산 모델에 비해 더 높은 가치를 갖는 개선된 정책을 따르는 것을 확인했습니다. AGD는 PolyGRAD 스타일 아키텍처와 완벽하게 통합될 수 있으며, 상태 구성 요소에 가이드하는 방식으로 작동하며, 행동 생성은 정책에 조건부로 유지됩니다. 또한, 확산 모델의 학습 목표를 변경할 필요가 없습니다. MuJoCo 제어 작업(HalfCheetah, Hopper, Walker2D 및 Reacher)에서 AGD-MBRL은 PolyGRAD, 온라인 Diffuser 스타일의 보상 가이드, 그리고 모델 프리 기반 알고리즘(PPO/TRPO)보다 샘플 효율성과 최종 보상이 향상되었으며, 일부 경우 2배의 성능 향상을 보였습니다. 이러한 결과는 어드밴티지 인지 가이드가 확산 모델 기반 MBRL의 단기적인 근시 문제를 해결하는 간단하고 효과적인 방법임을 보여줍니다.
Model-based reinforcement learning (MBRL) with autoregressive world models suffers from compounding errors, whereas diffusion world models mitigate this by generating trajectory segments jointly. However, existing diffusion guides are either policy-only, discarding value information, or reward-based, which becomes myopic when the diffusion horizon is short. We introduce Advantage-Guided Diffusion for MBRL (AGD-MBRL), which steers the reverse diffusion process using the agent's advantage estimates so that sampling concentrates on trajectories expected to yield higher long-term return beyond the generated window. We develop two guides: (i) Sigmoid Advantage Guidance (SAG) and (ii) Exponential Advantage Guidance (EAG). We prove that a diffusion model guided through SAG or EAG allows us to perform reweighted sampling of trajectories with weights increasing in state-action advantage-implying policy improvement under standard assumptions. Additionally, we show that the trajectories generated from AGD-MBRL follow an improved policy (that is, with higher value) compared to an unguided diffusion model. AGD integrates seamlessly with PolyGRAD-style architectures by guiding the state components while leaving action generation policy-conditioned, and requires no change to the diffusion training objective. On MuJoCo control tasks (HalfCheetah, Hopper, Walker2D and Reacher), AGD-MBRL improves sample efficiency and final return over PolyGRAD, an online Diffuser-style reward guide, and model-free baselines (PPO/TRPO), in some cases by a margin of 2x. These results show that advantage-aware guidance is a simple, effective remedy for short-horizon myopia in diffusion-model MBRL.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.