AutoDriDM: 자율 주행 내 비전-언어 모델의 의사결정을 위한 설명 가능한 벤치마크
AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving
자율 주행은 복잡한 시나리오에서 신뢰할 수 있는 인지 능력과 안전한 의사결정을 필요로 하는 매우 도전적인 분야입니다. 최근 비전-언어 모델(VLM)은 뛰어난 추론 및 일반화 능력을 입증하며 자율 주행에 새로운 가능성을 열어주었으나, 기존 벤치마크와 평가지표는 인지 능력에만 지나치게 편중되어 있어 의사결정 과정을 제대로 평가하지 못하는 한계가 있습니다. 본 연구에서는 객체, 장면, 결정의 세 가지 차원에 걸친 6,650개의 질문으로 구성된 의사결정 중심의 단계적 벤치마크인 AutoDriDM을 제안합니다. 우리는 자율 주행에서 인지 능력과 의사결정 능력의 경계를 명확히 하기 위해 주요 VLM들을 평가하였으며, 상관관계 분석을 통해 인지 성능과 의사결정 성능 간의 연관성이 낮음을 밝혀냈습니다. 더 나아가 모델의 추론 과정에 대한 설명 가능성 분석을 수행하여 논리적 추론 오류와 같은 주요 실패 요인을 식별하고, 대규모 주석 작업을 자동화하기 위한 분석기 모델을 도입했습니다. AutoDriDM은 인지 중심 평가와 의사결정 중심 평가 사이의 간극을 메우며, 실제 자율 주행 환경에서 더욱 안전하고 신뢰할 수 있는 VLM을 구축하기 위한 가이드라인을 제공합니다.
Autonomous driving is a highly challenging domain that requires reliable perception and safe decision-making in complex scenarios. Recent vision-language models (VLMs) demonstrate reasoning and generalization abilities, opening new possibilities for autonomous driving; however, existing benchmarks and metrics overemphasize perceptual competence and fail to adequately assess decision-making processes. In this work, we present AutoDriDM, a decision-centric, progressive benchmark with 6,650 questions across three dimensions - Object, Scene, and Decision. We evaluate mainstream VLMs to delineate the perception-to-decision capability boundary in autonomous driving, and our correlation analysis reveals weak alignment between perception and decision-making performance. We further conduct explainability analyses of models' reasoning processes, identifying key failure modes such as logical reasoning errors, and introduce an analyzer model to automate large-scale annotation. AutoDriDM bridges the gap between perception-centered and decision-centered evaluation, providing guidance toward safer and more reliable VLMs for real-world autonomous driving.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.