2601.01528v1 Jan 04, 2026 cs.CV

DrivingGen: 자율 주행을 위한 생성형 비디오 월드 모델의 종합적인 벤치마크

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Yang Zhou
Yang Zhou
Citations: 72
h-index: 3
Hao Shao
Hao Shao
Citations: 34
h-index: 2
Letian Wang
Letian Wang
Citations: 1,319
h-index: 10
Zhuofan Zong
Zhuofan Zong
Citations: 1,687
h-index: 13
Hongsheng Li
Hongsheng Li
Citations: 3
h-index: 1
Steven L. Waslander
Steven L. Waslander
Citations: 9
h-index: 2

비디오 생성 모델은 일종의 월드 모델로서, AI 분야에서 가장 유망한 분야 중 하나이며, 복잡한 장면의 시간적 변화를 모델링하여 에이전트가 미래를 상상할 수 있도록 합니다. 자율 주행 분야에서 이러한 비전은 '드라이빙 월드 모델'이라는 생성형 시뮬레이터를 탄생시키며, 이를 통해 확장 가능한 시뮬레이션, 위험 상황에 대한 안전한 테스트, 풍부한 합성 데이터 생성이 가능합니다. 그러나 연구 활동이 빠르게 증가하고 있음에도 불구하고, 발전 상황을 측정하고 우선순위를 설정할 수 있는 엄격한 벤치마크가 부족합니다. 기존의 평가 방법은 다음과 같은 한계를 가지고 있습니다. 일반적인 비디오 지표는 안전에 중요한 요소들을 간과하고, 주행 가능성은 거의 정량화되지 않으며, 시간적 일관성과 에이전트 수준의 일관성이 무시되고, 에고 차량의 조건을 고려한 제어 가능성이 고려되지 않습니다. 또한, 현재 데이터셋은 실제 환경 배포에 필요한 다양한 조건을 충분히 반영하지 못합니다. 이러한 문제점을 해결하기 위해, 우리는 생성형 드라이빙 월드 모델을 위한 최초의 종합적인 벤치마크인 DrivingGen을 제시합니다. DrivingGen은 다양한 주행 데이터셋과 인터넷 규모의 비디오 소스를 기반으로 큐레이션된 평가 데이터셋과, 시각적 현실성, 주행 가능성, 시간적 일관성, 제어 가능성을 종합적으로 평가하는 새로운 지표들을 결합합니다. 14개의 최첨단 모델을 벤치마킹한 결과, 명확한 상호 보완 관계가 나타났습니다. 일반적인 모델은 시각적으로 더 뛰어나지만 물리 법칙을 위반하는 경향이 있으며, 주행에 특화된 모델은 움직임을 현실적으로 표현하지만 시각적 품질이 부족합니다. DrivingGen은 신뢰할 수 있고 제어 가능하며 실제 배포가 가능한 드라이빙 월드 모델을 개발하기 위한 통합적인 평가 프레임워크를 제공하며, 이를 통해 확장 가능한 시뮬레이션, 계획 수립, 데이터 기반 의사 결정을 가능하게 합니다.

Original Abstract

Video generation models, as one form of world models, have emerged as one of the most exciting frontiers in AI, promising agents the ability to imagine the future by modeling the temporal evolution of complex scenes. In autonomous driving, this vision gives rise to driving world models: generative simulators that imagine ego and agent futures, enabling scalable simulation, safe testing of corner cases, and rich synthetic data generation. Yet, despite fast-growing research activity, the field lacks a rigorous benchmark to measure progress and guide priorities. Existing evaluations remain limited: generic video metrics overlook safety-critical imaging factors; trajectory plausibility is rarely quantified; temporal and agent-level consistency is neglected; and controllability with respect to ego conditioning is ignored. Moreover, current datasets fail to cover the diversity of conditions required for real-world deployment. To address these gaps, we present DrivingGen, the first comprehensive benchmark for generative driving world models. DrivingGen combines a diverse evaluation dataset curated from both driving datasets and internet-scale video sources, spanning varied weather, time of day, geographic regions, and complex maneuvers, with a suite of new metrics that jointly assess visual realism, trajectory plausibility, temporal coherence, and controllability. Benchmarking 14 state-of-the-art models reveals clear trade-offs: general models look better but break physics, while driving-specific ones capture motion realistically but lag in visual quality. DrivingGen offers a unified evaluation framework to foster reliable, controllable, and deployable driving world models, enabling scalable simulation, planning, and data-driven decision-making.

5 Citations
0 Influential
6.5 Altmetric
37.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!