드리프팅 모델을 활용한 레시딩 호라이즌 제어
Receding-Horizon Control via Drifting Models
본 연구에서는 시스템 동역학이 알려지지 않고, 대리 모델을 통한 궤적 시뮬레이션이 불가능한 환경에서의 궤적 최적화 문제를 다룬다. 오프라인 궤적 데이터셋이 존재할 때, 에이전트는 분포 매칭을 통해 궤적 생성기를 직접 학습할 수 있다. 하지만 이 방법은 데이터셋 내의 행동 분포만을 복원하며, 일반적으로 원하는 비용 기준을 최소화하는 모델을 생성하지 못한다. 본 연구에서는 드리프팅 MPC(Drifting MPC)라는 오프라인 궤적 최적화 프레임워크를 제안한다. 이는 알려지지 않은 동역학 하에서 드리프팅 생성 모델과 레시딩 호라이즌 계획을 결합한다. 드리프팅 MPC의 목표는 오프라인 궤적 데이터셋으로부터 학습된 조건부 궤적 분포가 데이터에 기반하면서 동시에 최적의 계획에 편향되도록 하는 것이다. 우리는 드리프팅 MPC에 의해 학습된 분포가 최적성과 오프라인 사전과의 근접성을 절충하는 목적 함수의 유일한 해임을 보인다. 실험적으로, 드리프팅 MPC는 드리프팅 모델의 단일 단계 추론 효율성을 유지하면서 확산 기반의 기존 방법보다 생성 시간을 크게 줄이고, 거의 최적의 궤적을 생성할 수 있음을 보여준다.
We study the problem of trajectory optimization in settings where the system dynamics are unknown and it is not possible to simulate trajectories through a surrogate model. When an offline dataset of trajectories is available, an agent could directly learn a trajectory generator by distribution matching. However, this approach only recovers the behavior distribution in the dataset, and does not in general produce a model that minimizes a desired cost criterion. In this work, we propose Drifting MPC, an offline trajectory optimization framework that combines drifting generative models with receding-horizon planning under unknown dynamics. The goal of Drifting MPC is to learn, from an offline dataset of trajectories, a conditional distribution over trajectories that is both supported by the data and biased toward optimal plans. We show that the resulting distribution learned by Drifting MPC is the unique solution of an objective that trades off optimality with closeness to the offline prior. Empirically, we show that Drifting MPC can generate near-optimal trajectories while retaining the one-step inference efficiency of drifting models and substantially reducing generation time relative to diffusion-based baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.