2601.22930v1 Jan 30, 2026 cs.RO

MTDrive: 자율 주행을 위한 다중 회차 상호 작용 강화 학습

MTDrive: Multi-turn Interactive Reinforcement Learning for Autonomous Driving

Chen Xu
Chen Xu
Citations: 212
h-index: 6
Xidong Li
Xidong Li
Citations: 0
h-index: 0
Mingyu Guo
Mingyu Guo
Citations: 49
h-index: 3
Bailin Li
Bailin Li
Citations: 461
h-index: 3
Wenjing Zhu
Wenjing Zhu
Citations: 3
h-index: 1
Yang Zou
Yang Zou
Citations: 24
h-index: 2
Rui Chen
Rui Chen
Citations: 192
h-index: 3
Zehua Wang
Zehua Wang
Citations: 315
h-index: 6

자율 주행의 핵심 과제인 경로 계획은 다양한 시나리오에서 안전하고 편안한 경로를 예측하는 것을 요구합니다. 다중 모드 대규모 언어 모델(MLLM)을 강화 학습(RL)과 통합하는 것은 “희소” 시나리오 문제를 해결하는 데 유망한 결과를 보여주었습니다. 그러나 기존 방법은 단일 회차 추론에 제약되어 있어 반복적인 개선이 필요한 복잡한 작업을 처리하는 데 한계가 있습니다. 이러한 한계를 극복하기 위해, 우리는 환경 피드백을 기반으로 MLLM이 경로를 반복적으로 개선할 수 있도록 하는 다중 회차 프레임워크인 MTDrive를 제시합니다. MTDrive는 회차 간 상대적 이점을 계산하여 보상 희소성을 완화하는 Multi-Turn Group Relative Policy Optimization (mtGRPO)을 도입합니다. 또한, 다중 회차 학습을 지원하기 위해 폐쇄 루프 시뮬레이션을 통해 상호 작용 경로 이해 데이터셋을 구축했습니다. NAVSIM 벤치마크에서의 실험 결과는 기존 방법보다 우수한 성능을 보여주며, 우리의 다중 회차 추론 패러다임의 효과를 검증합니다. 또한, 고해상도 이미지와 다중 회차 시퀀스로 인해 발생하는 데이터 전송 오버헤드를 줄이기 위해 시스템 수준 최적화를 구현하여 2.5배의 학습 처리량을 달성했습니다. 우리의 데이터, 모델, 코드는 곧 공개될 예정입니다.

Original Abstract

Trajectory planning is a core task in autonomous driving, requiring the prediction of safe and comfortable paths across diverse scenarios. Integrating Multi-modal Large Language Models (MLLMs) with Reinforcement Learning (RL) has shown promise in addressing "long-tail" scenarios. However, existing methods are constrained to single-turn reasoning, limiting their ability to handle complex tasks requiring iterative refinement. To overcome this limitation, we present MTDrive, a multi-turn framework that enables MLLMs to iteratively refine trajectories based on environmental feedback. MTDrive introduces Multi-Turn Group Relative Policy Optimization (mtGRPO), which mitigates reward sparsity by computing relative advantages across turns. We further construct an interactive trajectory understanding dataset from closed-loop simulation to support multi-turn training. Experiments on the NAVSIM benchmark demonstrate superior performance compared to existing methods, validating the effectiveness of our multi-turn reasoning paradigm. Additionally, we implement system-level optimizations to reduce data transfer overhead caused by high-resolution images and multi-turn sequences, achieving 2.5x training throughput. Our data, models, and code will be made available soon.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!