2601.08434v3 Jan 13, 2026 cs.RO

자율 주행을 위한 대규모 다중 모드 모델: 자율 주행의 다음 단계인가?

Large Multimodal Models for Embodied Intelligent Driving: The Next Frontier in Self-Driving?

Zhu Han
Zhu Han
Citations: 57
h-index: 5
Long Zhang
Long Zhang
Citations: 8
h-index: 1
Yuchen Xia
Yuchen Xia
Citations: 227
h-index: 8
Bingqing Wei
Bingqing Wei
Citations: 10
h-index: 2
Zhen Liu
Zhen Liu
Citations: 68
h-index: 5
Shiwen Mao
Shiwen Mao
Citations: 11
h-index: 1
M. Guizani
M. Guizani
Citations: 54
h-index: 4

대규모 다중 모드 모델(LMM)의 등장은 자율 주행의 모듈식 설계의 한계를 극복할 수 있는 유망한 기술입니다. 모듈식 설계는 종종 지속적인 환경 이해와 논리적 추론을 요구하는 개방형 환경에서 어려움을 겪습니다. 또한, 몸체화된 인공지능(Embodied AI)은 폐루프 상호작용을 통해 정책 최적화를 촉진하여 지속적인 학습 능력을 향상시키고, 이를 통해 자율 주행을 몸체화된 지능형(El) 주행으로 발전시킵니다. 그러나 LMM에만 의존하여 El 주행 능력을 향상시키는 것은 공동 의사 결정을 필요로 하므로 제약이 따릅니다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 의미론 및 정책 기반의 하이브리드 의사 결정 프레임워크를 소개하며, 지속적인 학습과 공동 의사 결정을 보장합니다. 이 프레임워크는 의미론적 이해 및 인지적 표현을 위한 LMM과 실시간 정책 최적화를 위한 딥 강화 학습(DRL)을 통합합니다. 먼저, El 주행 및 LMM의 기본 원리를 소개하고, 이 프레임워크가 제공하는 새로운 기회, 잠재적 이점 및 대표적인 활용 사례를 살펴봅니다. 실험적인 사례 연구를 통해, 제안하는 프레임워크가 차선 변경 계획 수행 작업에서 우수한 성능을 보임을 검증합니다. 마지막으로, El 주행을 강화하기 위한 향후 연구 방향을 제시하여 후속 연구를 위한 지침을 제공합니다.

Original Abstract

The advent of Large Multimodal Models (LMMs) offers a promising technology to tackle the limitations of modular design in autonomous driving, which often falters in open-world scenarios requiring sustained environmental understanding and logical reasoning. Besides, embodied artificial intelligence facilitates policy optimization through closed-loop interactions to achieve the continuous learning capability, thereby advancing autonomous driving toward embodied intelligent (El) driving. However, such capability will be constrained by relying solely on LMMs to enhance EI driving without joint decision-making. This article introduces a novel semantics and policy dual-driven hybrid decision framework to tackle this challenge, ensuring continuous learning and joint decision. The framework merges LMMs for semantic understanding and cognitive representation, and deep reinforcement learning (DRL) for real-time policy optimization. We start by introducing the foundational principles of EI driving and LMMs. Moreover, we examine the emerging opportunities this framework enables, encompassing potential benefits and representative use cases. A case study is conducted experimentally to validate the performance superiority of our framework in completing lane-change planning task. Finally, several future research directions to empower EI driving are identified to guide subsequent work.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!