2603.16495v1 Mar 17, 2026 cs.AI

ExpressMind: 고속도로 운영을 위한 다중 모드 사전 훈련 대규모 언어 모델

ExpressMind: A Multimodal Pretrained Large Language Model for Expressway Operation

Yongxin Tong
Yongxin Tong
Citations: 3
h-index: 1
Yonglin Tian
Yonglin Tian
Citations: 0
h-index: 0
Zihe Wang
Zihe Wang
Citations: 112
h-index: 4
Yihua Wang
Yihua Wang
Citations: 8
h-index: 2
H. Cui
H. Cui
Citations: 0
h-index: 0
Xiao-Dong Liao
Xiao-Dong Liao
Citations: 2
h-index: 1
Chengcheng Wang
Chengcheng Wang
Citations: 18
h-index: 2

현재 고속도로 운영은 규칙 기반 모델과 독립적인 모델에 의존하여, 서로 다른 시스템 간의 지식을 통합적으로 분석하는 능력이 제한적입니다. 한편, 대규모 언어 모델(LLM)은 지능형 교통 분야에서 활용이 증가하며, 교통 모델을 알고리즘 기반 지능에서 인지 기반 지능으로 발전시키고 있습니다. 그러나 일반적인 LLM은 고속도로 분야의 비정형 시나리오에서 발생하는 규정과 사건 간의 인과 관계를 효과적으로 이해하는 데 어려움이 있습니다. 따라서 본 논문에서는 고속도로 운영을 위한 인지 핵심으로 작용하는 사전 훈련된 다중 모드 대규모 언어 모델(MLLM)인 ExpressMind를 구축합니다. 또한, 데이터 부족 문제를 해결하기 위해, 교통 지식 텍스트, 비상 상황 추론 체인, 그리고 주석이 달린 비디오 이벤트 등을 포함하는 업계 최초의 풀스택 고속도로 데이터셋을 구축합니다. 본 논문에서는 자기 지도 학습과 비지도 학습을 기반으로 하는 이중 레이어 LLM 사전 훈련 패러다임을 제안합니다. 또한, 고속도로 지식 기반을 동적으로 인덱싱하기 위한 그래프 기반 검색(Graph-Augmented RAG) 프레임워크를 소개합니다. 고속도로 사고 대응 전략에 대한 추론 능력을 향상시키기 위해, 모델의 추론과 전문가의 문제 해결 휴리스틱 간의 일관성을 강화하는 강화 학습 기반 연쇄적 사고(RL-CoT) 메커니즘을 개발했습니다. 마지막으로, ExpressMind는 시각 및 텍스트 채널에서 동적 특징 시퀀스를 정렬하는 교차 모드 인코더를 통합하여, 비디오 및 이미지 모드 모두에서 교통 장면을 이해할 수 있도록 합니다. 새로 공개된 다중 모드 고속도로 벤치마크에 대한 광범위한 실험 결과, ExpressMind는 이벤트 감지, 안전 대응 생성, 복잡한 교통 분석 등 다양한 측면에서 기존 모델보다 뛰어난 성능을 보이는 것을 확인했습니다. 코드 및 데이터는 다음 주소에서 확인할 수 있습니다: https://wanderhee.github.io/ExpressMind/.

Original Abstract

The current expressway operation relies on rule-based and isolated models, which limits the ability to jointly analyze knowledge across different systems. Meanwhile, Large Language Models (LLMs) are increasingly applied in intelligent transportation, advancing traffic models from algorithmic to cognitive intelligence. However, general LLMs are unable to effectively understand the regulations and causal relationships of events in unconventional scenarios in the expressway field. Therefore, this paper constructs a pre-trained multimodal large language model (MLLM) for expressways, ExpressMind, which serves as the cognitive core for intelligent expressway operations. This paper constructs the industry's first full-stack expressway dataset, encompassing traffic knowledge texts, emergency reasoning chains, and annotated video events to overcome data scarcity. This paper proposes a dual-layer LLM pre-training paradigm based on self-supervised training and unsupervised learning. Additionally, this study introduces a Graph-Augmented RAG framework to dynamically index the expressway knowledge base. To enhance reasoning for expressway incident response strategies, we develop a RL-aligned Chain-of-Thought (RL-CoT) mechanism that enforces consistency between model reasoning and expert problem-solving heuristics for incident handling. Finally, ExpressMind integrates a cross-modal encoder to align the dynamic feature sequences under the visual and textual channels, enabling it to understand traffic scenes in both video and image modalities. Extensive experiments on our newly released multi-modal expressway benchmark demonstrate that ExpressMind comprehensively outperforms existing baselines in event detection, safety response generation, and complex traffic analysis. The code and data are available at: https://wanderhee.github.io/ExpressMind/.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!