안전성과 성능을 위한 비용 기반 생성 및 보상 경사를 활용하여 변화하는 비용 제한에 적응하는 분리된 확산 계획기
A decoupled diffusion planner that adapts to changing cost limits by using cost-conditioned generation for safety and reward gradients for performance
오프라인 안전 강화 학습에서, 정책은 종종 배포 시점에 안전 예산에 적응해야 하며, 이는 에피소드 간에 다르게 적용되거나 단일 에피소드 내에서 변할 수 있습니다. 확산 기반 계획기는 유연한 경로 생성을 가능하게 하지만, 기존의 안내 방식은 종종 보상 향상과 제약 조건 만족을 경쟁적인 경사 목표로 취급하여, 비용 제한 하에서 신뢰할 수 없는 안전 준수를 초래할 수 있습니다. 본 연구에서는 적응적인 안전 경로 생성을 제약된 경로 분포에서 샘플링하는 것으로 재해석합니다. 여기서 예산은 경로 영역을 제한하고, 보상은 해당 영역 내에서 선호도를 형성합니다. 이러한 관점은 Safe Decoupled Guidance Diffusion (SDGD)을 동기 부여하며, SDGD는 분류기-프리 안내 방식을 비용 제한에 따라 조건부로 적용하여 지정된 제한을 만족하는 경로로 샘플링을 유도하고, 동시에 보상 경사 안내를 사용하여 더 높은 보상을 얻기 위해 경로를 개선합니다. 직접적인 보상 안내는 보상을 증가시키는 동시에 누적 비용이 높은 경로로 샘플을 유도할 수 있으므로, Feasible Trajectory Relabeling (FTR)을 도입하여 보상 목표를 재구성하고 이러한 방향을 억제합니다. 또한, FTR이 접두사-복원 정렬 조건 하에서 보상으로 인한 비용 드리프트를 억제한다는 것을 보여주는 첫 번째 차수의 샘플링 시간 분석을 제공합니다. DSRL 벤치마크에 대한 광범위한 평가 결과, SDGD는 기준 모델 중에서 가장 강력한 안전 준수를 달성했으며, 38개의 작업 중 36개(94.7%)에서 제약을 만족했습니다. 또한, 안전한 방법 중에서 21개의 작업에서 가장 높은 보상을 얻었습니다.
Offline safe reinforcement learning often requires policies to adapt at deployment time to safety budgets that vary across episodes or change within a single episode. While diffusion-based planners enable flexible trajectory generation, existing guidance schemes often treat reward improvement and constraint satisfaction as competing gradient objectives, which can lead to unreliable safety compliance under cost limits. We reinterpret adaptive safe trajectory generation as sampling from a constrained trajectory distribution, where the budget restricts the trajectory region, and reward shapes preferences within that region. This perspective motivates Safe Decoupled Guidance Diffusion (SDGD), which conditions classifier-free guidance on the cost limit to bias sampling toward trajectories satisfying the specified limit, while using reward-gradient guidance to refine trajectories for higher return. Because direct reward guidance can increase return while also steering samples toward trajectories with higher cumulative cost, we introduce Feasible Trajectory Relabeling (FTR) to reshape reward targets and discourage such directions. We further provide a first-order sampling-time analysis showing that FTR suppresses reward-induced cost drift under a prefix-restorative alignment condition. Extensive evaluations on the DSRL benchmark show that SDGD achieves the strongest safety compliance among baselines, satisfying the constraint on 94.7% of tasks (36/38), while obtaining the highest reward among safe methods on 21 tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.