2604.12208v1 Apr 14, 2026 cs.RO

종단 간 자율 주행에서 탐색 이해의 놀라운 효능: 심층 분석

Unveiling the Surprising Efficacy of Navigation Understanding in End-to-End Autonomous Driving

Kehua Sheng
Kehua Sheng
Citations: 145
h-index: 6
Zhihua Hua
Zhihua Hua
Citations: 33
h-index: 2
Junli Wang
Junli Wang
Citations: 44
h-index: 3
Pengfei Li
Pengfei Li
Citations: 6
h-index: 2
Qihao Jin
Qihao Jin
Citations: 53
h-index: 3
Yilun Chen
Yilun Chen
Citations: 124
h-index: 5
Zhongxue Gan
Zhongxue Gan
Citations: 192
h-index: 6
Bo Zhang
Bo Zhang
Citations: 8
h-index: 2
Wenchao Ding
Wenchao Ding
Citations: 290
h-index: 10

글로벌 내비게이션 정보와 로컬 장면 이해는 자율 주행 시스템의 두 가지 핵심 구성 요소입니다. 그러나 우리의 실험 결과는 많은 종단 간 자율 주행 시스템이 로컬 장면 이해에 과도하게 의존하고 글로벌 내비게이션 정보를 활용하지 못하는 경향이 있음을 보여줍니다. 이러한 시스템은 계획 능력과 내비게이션 입력 간의 상관 관계가 약하며 복잡한 시나리오에서 내비게이션 추종에 어려움을 겪습니다. 이러한 제한 사항을 극복하기 위해, 실제 내비게이션 패턴을 기반으로 글로벌 내비게이션 정보를 효율적으로 표현하는 Sequential Navigation Guidance (SNG) 프레임워크를 제안합니다. SNG는 장기적인 궤적을 제약하는 내비게이션 경로와 실시간 의사 결정 로직을 위한 턴바이턴(TBT) 정보를 모두 포함합니다. 우리는 SNG를 기반으로 글로벌 및 로컬 계획을 연결하는 시각적 질문 답변(VQA) 데이터셋인 SNG-QA 데이터셋을 구축했습니다. 또한, 로컬 계획과 글로벌 계획을 융합하는 효율적인 모델인 SNG-VLA를 소개합니다. SNG-VLA는 인지 작업에서 발생하는 추가적인 손실 함수 없이 정확한 내비게이션 정보 모델링을 통해 최첨단 성능을 달성합니다. 프로젝트 페이지: SNG-VLA

Original Abstract

Global navigation information and local scene understanding are two crucial components of autonomous driving systems. However, our experimental results indicate that many end-to-end autonomous driving systems tend to over-rely on local scene understanding while failing to utilize global navigation information. These systems exhibit weak correlation between their planning capabilities and navigation input, and struggle to perform navigation-following in complex scenarios. To overcome this limitation, we propose the Sequential Navigation Guidance (SNG) framework, an efficient representation of global navigation information based on real-world navigation patterns. The SNG encompasses both navigation paths for constraining long-term trajectories and turn-by-turn (TBT) information for real-time decision-making logic. We constructed the SNG-QA dataset, a visual question answering (VQA) dataset based on SNG that aligns global and local planning. Additionally, we introduce an efficient model SNG-VLA that fuses local planning with global planning. The SNG-VLA achieves state-of-the-art performance through precise navigation information modeling without requiring auxiliary loss functions from perception tasks. Project page: SNG-VLA

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!