에너지 기반의 자기 지도 학습 액션 게이팅을 이용한 확산 계획 개선
Improving Diffusion Planners by Self-Supervised Action Gating with Energies
확산 계획은 오프라인 강화 학습에서 강력한 접근 방식이지만, 가치 기반 선택이 환경 역학적 일관성이 부족한 경로를 선호하여 불안정한 실행 결과를 초래할 수 있습니다. 본 논문에서는 동적 일관성이 없는 계획에 페널티를 부여하는 잠재적 일관성 신호를 사용하는 추론 시간 재순위화 방법인 자기 지도 학습 액션 게이팅 (SAGE)을 제안합니다. SAGE는 오프라인 상태 시퀀스와 액션 기반 잠재 예측기를 사용하여 Joint-Embedding Predictive Architecture (JEPA) 인코더를 학습합니다. 테스트 시, SAGE는 각 후보 경로에 잠재 예측 오류를 기반으로 에너지를 할당하고, 이 실현 가능성 점수를 가치 추정치와 결합하여 액션을 선택합니다. SAGE는 경로를 샘플링하고 가치 점수를 통해 액션을 선택하는 기존의 확산 계획 파이프라인에 통합될 수 있으며, 환경 시뮬레이션이나 정책 재학습이 필요하지 않습니다. 로봇 이동, 내비게이션, 조작 벤치마크에서 SAGE는 확산 계획의 성능과 안정성을 향상시킵니다.
Diffusion planners are a strong approach for offline reinforcement learning, but they can fail when value-guided selection favours trajectories that score well yet are locally inconsistent with the environment dynamics, resulting in brittle execution. We propose Self-supervised Action Gating with Energies (SAGE), an inference-time re-ranking method that penalises dynamically inconsistent plans using a latent consistency signal. SAGE trains a Joint-Embedding Predictive Architecture (JEPA) encoder on offline state sequences and an action-conditioned latent predictor for short horizon transitions. At test time, SAGE assigns each sampled candidate an energy given by its latent prediction error and combines this feasibility score with value estimates to select actions. SAGE can integrate into existing diffusion planning pipelines that can sample trajectories and select actions via value scoring; it requires no environment rollouts and no policy re-training. Across locomotion, navigation, and manipulation benchmarks, SAGE improves the performance and robustness of diffusion planners.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.