일반화 가능한 엔드 투 엔드 자율 주행을 위한 위험 인지 월드 모델 예측 제어
Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving
최근, 모방 학습(IL)과 대규모 주행 데이터셋의 발전으로 엔드 투 엔드 자율 주행(E2E-AD) 분야는 큰 진전을 이루었습니다. 현재, IL 기반 방법이 주류 패러다임으로 자리 잡았으며, 모델은 전문가가 제공하는 표준 주행 행동을 기반으로 학습하여 자신의 행동과 전문가의 행동 간의 차이를 최소화합니다. 그러나 '단순히 전문가처럼 운전하는 것'이라는 목표는 일반화 능력의 한계를 드러냅니다. 전문가 데모 분포 외부의 드물거나 예측 불가능한 시나리오에서 모델은 사전 경험이 부족하여 안전하지 않은 결정을 내릴 가능성이 높습니다. 이는 다음과 같은 근본적인 질문을 제기합니다. 전문가 행동의 감독 없이 E2E-AD 시스템이 신뢰할 수 있는 결정을 내릴 수 있을까요? 이러한 일반화 문제 해결을 위해, 저희는 전문가 데모에 의존하지 않고 강력한 제어를 통해 위험 인지 월드 모델 예측 제어(RaWMPC)라는 통합 프레임워크를 제안합니다. RaWMPC는 월드 모델을 활용하여 여러 후보 행동의 결과를 예측하고, 명시적인 위험 평가를 통해 저위험 행동을 선택합니다. 월드 모델이 위험한 주행 행동의 결과를 예측할 수 있도록, 저희는 월드 모델을 체계적으로 위험한 행동에 노출시키는 위험 인지 상호 작용 전략을 설계하여, 파국적인 결과를 예측 가능하게 만들어 회피할 수 있도록 합니다. 또한, 테스트 시점에 저위험 후보 행동을 생성하기 위해, 저희는 훈련된 월드 모델에서 위험 회피 능력을 추출하여 전문가 데모 없이 생성적 행동 제안 네트워크에 통합하는 자체 평가 증류 방법을 도입했습니다. 광범위한 실험 결과, RaWMPC는 인-디스트리뷰션 및 아웃-오브-디스트리뷰션 시나리오 모두에서 최첨단 방법보다 우수한 성능을 보이며, 더 나은 의사 결정 해석 가능성을 제공합니다.
With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.