2603.15185v1 Mar 16, 2026 cs.RO

종단 간(end-to-end) 자율 주행 시스템에서 확장 가능하고 견고한 학습을 위해 중요한 요소는 무엇인가?

What Matters for Scalable and Robust Learning in End-to-End Driving Planners?

B. Schiele
B. Schiele
Citations: 94,533
h-index: 136
D. Holtz
D. Holtz
Citations: 18
h-index: 3
Niklas Hanselmann
Niklas Hanselmann
Citations: 72
h-index: 4
Simon Doll
Simon Doll
Citations: 69
h-index: 3
Marius Cordts
Marius Cordts
Citations: 8
h-index: 2

종단 간 자율 주행은 상호 작용하는 환경에서 견고한 행동을 학습하고 데이터 양에 따라 확장될 수 있는 잠재력을 가지고 있어 많은 관심을 받고 있습니다. 일반적인 아키텍처는 종종 인식 및 계획 모듈을 분리하고, 새의 눈(bird's eye view) 특징 격자와 같은 잠재적 표현을 통해 연결하여 종단 간 미분 가능성을 유지합니다. 이러한 패러다임은 주로 개방 루프(open-loop) 데이터 세트에서 발전했으며, 평가는 주행 성능뿐만 아니라 중간 인식 작업에 초점을 맞춥니다. 불행히도, 개방 루프 환경에서 뛰어난 성능을 보이는 아키텍처는 종종 견고한 폐쇄 루프(closed-loop) 주행의 확장 가능한 학습으로 이어지지 못합니다. 본 논문에서는 일반적인 아키텍처 패턴이 폐쇄 루프 성능에 미치는 영향을 체계적으로 재검토합니다. (1) 고해상도 인식 표현, (2) 분리된 경로 표현, (3) 생성적 계획이 이에 해당합니다. 중요한 점은, 본 연구에서는 이러한 패턴의 결합된 영향력을 평가하여 예상치 못한 제한 사항과 아직 탐구되지 않은 시너지 효과를 밝혀냈습니다. 이러한 통찰력을 바탕으로, 본 논문에서는 경량화되고 매우 확장 가능한 새로운 종단 간 자율 주행 아키텍처인 BevAD를 소개합니다. BevAD는 Bench2Drive 벤치마크에서 72.7%의 성공률을 달성했으며, 순수 모방 학습을 통해 강력한 데이터 확장성을 보여줍니다. 본 연구의 코드 및 모델은 다음 링크에서 공개적으로 이용할 수 있습니다: https://dmholtz.github.io/bevad/

Original Abstract

End-to-end autonomous driving has gained significant attention for its potential to learn robust behavior in interactive scenarios and scale with data. Popular architectures often build on separate modules for perception and planning connected through latent representations, such as bird's eye view feature grids, to maintain end-to-end differentiability. This paradigm emerged mostly on open-loop datasets, with evaluation focusing not only on driving performance, but also intermediate perception tasks. Unfortunately, architectural advances that excel in open-loop often fail to translate to scalable learning of robust closed-loop driving. In this paper, we systematically re-examine the impact of common architectural patterns on closed-loop performance: (1) high-resolution perceptual representations, (2) disentangled trajectory representations, and (3) generative planning. Crucially, our analysis evaluates the combined impact of these patterns, revealing both unexpected limitations as well as underexplored synergies. Building on these insights, we introduce BevAD, a novel lightweight and highly scalable end-to-end driving architecture. BevAD achieves 72.7% success rate on the Bench2Drive benchmark and demonstrates strong data-scaling behavior using pure imitation learning. Our code and models are publicly available here: https://dmholtz.github.io/bevad/

0 Citations
0 Influential
30 Altmetric
150.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!