Sim2Real-AD: 실제 자율주행 환경에 VLM 기반 강화학습을 적용하기 위한 모듈형 시뮬레이션-실제 전환 프레임워크
Sim2Real-AD: A Modular Sim-to-Real Framework for Deploying VLM-Guided Reinforcement Learning in Real-World Autonomous Driving
시뮬레이션 환경에서 학습된 강화학습 정책을 실제 자율주행 차량에 적용하는 것은 여전히 중요한 과제이며, 특히 VLM(Visual Language Model) 기반 강화학습 프레임워크의 경우, 정책이 일반적으로 시뮬레이터 환경에 특화된 관측 데이터와 시뮬레이터와 연결된 동작 의미를 사용하여 학습되기 때문에 실제 플랫폼에서 적용하기 어렵습니다. 본 논문에서는 CARLA 환경에서 학습된 VLM 기반 강화학습 정책을 실제 전장 차량에 적용하기 위한 모듈형 프레임워크인 Sim2Real-AD를 제안합니다. 이 프레임워크는 실제 환경에서의 강화학습 데이터 없이, 시뮬레이션에서 학습된 정책을 실제 환경으로 바로 이전(zero-shot)하는 것을 목표로 합니다. 프레임워크는 문제를 네 가지 구성 요소로 분해합니다. 첫째, 단안 전방 이미지를 시뮬레이터 호환 가능한 탑-다운(bird's-eye-view, BEV) 관측 데이터로 변환하는 기하학적 관측 브리지(Geometric Observation Bridge, GOB)입니다. 둘째, 정책의 출력을 플랫폼에 독립적인 물리적 명령으로 변환하는 물리 기반 동작 매핑(Physics-Aware Action Mapping, PAM)입니다. 셋째, 동작 공간과 관측 공간의 이전 단계를 분리하여 적응을 안정화하는 2단계 점진적 학습(Two-Phase Progressive Training, TPT) 전략입니다. 넷째, 인지, 정책 추론, 제어 변환 및 안전 모니터링을 통합하여 폐루프 실행을 가능하게 하는 실시간 배포 파이프라인(Real-time Deployment Pipeline, RDP)입니다. 시뮬레이션 실험 결과, 제안하는 프레임워크는 다양한 보상 체계에서 대표적인 강화학습 알고리즘 간의 상대적인 성능 순서를 유지하며, 각 모듈의 기여를 검증합니다. 실제 Ford E-Transit 차량에 적용한 결과, 차후추종, 장애물 회피, 정지 표지 상호 작용 시나리오에서 각각 90%, 80%, 75%의 성공률을 달성했습니다. 현재까지 알려진 바로는, 본 연구는 실제 강화학습 데이터 없이 CARLA 환경에서 학습된 VLM 기반 강화학습 정책을 실제 전장 차량에 폐루프 방식으로 적용하는 첫 번째 사례 중 하나입니다. 데모 영상 및 코드는 다음 웹사이트에서 확인할 수 있습니다: https://zilin-huang.github.io/Sim2Real-AD-website/.
Deploying reinforcement learning policies trained in simulation to real autonomous vehicles remains a fundamental challenge, particularly for VLM-guided RL frameworks whose policies are typically learned with simulator-native observations and simulator-coupled action semantics that are unavailable on physical platforms. This paper presents Sim2Real-AD, a modular framework for zero-shot sim-to-real transfer of CARLA-trained VLM-guided RL policies to full-scale vehicles without any real-world RL training data. The framework decomposes the transfer problem into four components: a Geometric Observation Bridge (GOB) that converts monocular front-view images into simulator-compatible bird's-eye-view (BEV) observations, a Physics-Aware Action Mapping (PAM) that translates policy outputs into platform-agnostic physical commands, a Two-Phase Progressive Training (TPT) strategy that stabilizes adaptation by separating action-space and observation-space transfer, and a Real-time Deployment Pipeline (RDP) that integrates perception, policy inference, control conversion, and safety monitoring for closed-loop execution. Simulation experiments show that the framework preserves the relative performance ordering of representative RL algorithms across different reward paradigms and validate the contribution of each module. Zero-shot deployment on a full-scale Ford E-Transit achieves success rates of 90%, 80%, and 75% in car-following, obstacle avoidance, and stop-sign interaction scenarios, respectively. To the best of our knowledge, this study is among the first to demonstrate zero-shot closed-loop deployment of a CARLA-trained VLM-guided RL policy on a full-scale real vehicle without any real-world RL training data. The demo video and code are available at: https://zilin-huang.github.io/Sim2Real-AD-website/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.