지연 환경에서의 연속 제어를 위한 상태-행위 임베딩 확산 모델
State-Action Inpainting Diffuser for Continuous Control with Delay
신호 지연은 연속 제어 및 강화 학습(RL)에서 상호 작용과 인식 간의 시간 간격을 발생시켜 근본적인 과제를 야기합니다. 현재의 해결책은 주로 두 가지로 나뉩니다. 첫째는 마르코프 특성을 유지하기 위해 상태 증강을 사용하는 모델-프리 접근 방식이고, 둘째는 동역학 모델링을 통해 잠재적 믿음을 추론하는 모델 기반 방법입니다. 본 논문에서는 State-Action Inpainting Diffuser (SAID)라는 프레임워크를 도입하여 이러한 관점을 융합합니다. SAID는 동역학 학습의 귀납적 편향과 정책 최적화의 직접적인 의사 결정 능력을 통합합니다. SAID는 문제를 공동 시퀀스 임베딩 작업으로 공식화하여 환경 동역학을 암묵적으로 캡처하고 일관된 계획을 직접 생성함으로써 모델 기반 및 모델 프리 패러다임의 교차점에 효과적으로 작동합니다. 특히, 이러한 생성적 형식을 통해 SAID는 온라인 및 오프라인 RL 모두에 원활하게 적용될 수 있습니다. 지연이 있는 연속 제어 벤치마크에 대한 광범위한 실험 결과, SAID는 최첨단 수준의 견고한 성능을 달성하는 것으로 나타났습니다. 본 연구는 지연이 있는 RL 분야를 발전시키기 위한 새로운 방법론을 제시합니다.
Signal delay poses a fundamental challenge in continuous control and reinforcement learning (RL) by introducing a temporal gap between interaction and perception. Current solutions have largely evolved along two distinct paradigms: model-free approaches which utilize state augmentation to preserve Markovian properties, and model-based methods which focus on inferring latent beliefs via dynamics modeling. In this paper, we bridge these perspectives by introducing State-Action Inpainting Diffuser (SAID), a framework that integrates the inductive bias of dynamics learning with the direct decision-making capability of policy optimization. By formulating the problem as a joint sequence inpainting task, SAID implicitly captures environmental dynamics while directly generating consistent plans, effectively operating at the intersection of model-based and model-free paradigms. Crucially, this generative formulation allows SAID to be seamlessly applied to both online and offline RL. Extensive experiments on delayed continuous control benchmarks demonstrate that SAID achieves state-of-the-art and robust performance. Our study suggests a new methodology to advance the field of RL with delay.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.