2604.09035v1 Apr 10, 2026 cs.AI

모델 기반 강화 학습을 위한 어드밴티지 기반 확산 모델

Advantage-Guided Diffusion for Model-Based Reinforcement Learning

A. Eriksson
A. Eriksson
Citations: 3
h-index: 1
Daniele Foffano
Daniele Foffano
Citations: 19
h-index: 2
Alexandre Proutiere
Alexandre Proutiere
Citations: 1
h-index: 1
David Broman
David Broman
Citations: 45
h-index: 1
K. H. Johansson
K. H. Johansson
Citations: 2
h-index: 1

자기회귀 세계 모델을 사용하는 모델 기반 강화 학습(MBRL)은 오차의 누적 문제에 시달리지만, 확산 세계 모델은 경로 단편을 동시에 생성하여 이 문제를 완화합니다. 그러나 기존의 확산 모델 가이드 방식은 정책만을 사용하거나, 가치 정보를 무시하거나, 보상을 기반으로 하며, 이 경우 확산 모델의 수명이 짧으면 근시적인 문제가 발생합니다. 본 연구에서는 모델 기반 강화 학습(MBRL)을 위한 어드밴티지 기반 확산 모델(AGD-MBRL)을 제안합니다. AGD-MBRL은 에이전트의 어드밴티지 추정치를 활용하여 역확산 과정을 제어함으로써, 생성된 구간을 넘어 더 높은 장기 보상을 얻을 것으로 예상되는 경로에 샘플링이 집중되도록 합니다. 본 연구에서는 (i) 시그모이드 어드밴티지 가이드(SAG)와 (ii) 지수 어드밴티지 가이드(EAG)라는 두 가지 가이드 방식을 개발했습니다. SAG 또는 EAG를 통해 가이드된 확산 모델은 표준적인 가정 하에서, 상태-행동 어드밴티지가 증가하는 경로를 재가중 샘플링할 수 있도록 함으로써, 정책 개선을 가능하게 함을 증명했습니다. 또한, AGD-MBRL에서 생성된 경로는 가이드되지 않은 확산 모델에 비해 더 높은 가치를 갖는 개선된 정책을 따르는 것을 확인했습니다. AGD는 PolyGRAD 스타일 아키텍처와 완벽하게 통합될 수 있으며, 상태 구성 요소에 가이드하는 방식으로 작동하며, 행동 생성은 정책에 조건부로 유지됩니다. 또한, 확산 모델의 학습 목표를 변경할 필요가 없습니다. MuJoCo 제어 작업(HalfCheetah, Hopper, Walker2D 및 Reacher)에서 AGD-MBRL은 PolyGRAD, 온라인 Diffuser 스타일의 보상 가이드, 그리고 모델 프리 기반 알고리즘(PPO/TRPO)보다 샘플 효율성과 최종 보상이 향상되었으며, 일부 경우 2배의 성능 향상을 보였습니다. 이러한 결과는 어드밴티지 인지 가이드가 확산 모델 기반 MBRL의 단기적인 근시 문제를 해결하는 간단하고 효과적인 방법임을 보여줍니다.

Original Abstract

Model-based reinforcement learning (MBRL) with autoregressive world models suffers from compounding errors, whereas diffusion world models mitigate this by generating trajectory segments jointly. However, existing diffusion guides are either policy-only, discarding value information, or reward-based, which becomes myopic when the diffusion horizon is short. We introduce Advantage-Guided Diffusion for MBRL (AGD-MBRL), which steers the reverse diffusion process using the agent's advantage estimates so that sampling concentrates on trajectories expected to yield higher long-term return beyond the generated window. We develop two guides: (i) Sigmoid Advantage Guidance (SAG) and (ii) Exponential Advantage Guidance (EAG). We prove that a diffusion model guided through SAG or EAG allows us to perform reweighted sampling of trajectories with weights increasing in state-action advantage-implying policy improvement under standard assumptions. Additionally, we show that the trajectories generated from AGD-MBRL follow an improved policy (that is, with higher value) compared to an unguided diffusion model. AGD integrates seamlessly with PolyGRAD-style architectures by guiding the state components while leaving action generation policy-conditioned, and requires no change to the diffusion training objective. On MuJoCo control tasks (HalfCheetah, Hopper, Walker2D and Reacher), AGD-MBRL improves sample efficiency and final return over PolyGRAD, an online Diffuser-style reward guide, and model-free baselines (PPO/TRPO), in some cases by a margin of 2x. These results show that advantage-aware guidance is a simple, effective remedy for short-horizon myopia in diffusion-model MBRL.

0 Citations
0 Influential
1 Altmetric
5.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!