Vega: 자연어 지시를 활용한 자율 주행 학습
Vega: Learning to Drive with Natural Language Instructions
시각-언어-행동 모델은 의사 결정 과정에 언어를 통합하여 자율 주행 분야에 혁신을 가져왔습니다. 그러나 대부분의 기존 시스템은 언어 모달리티를 장면 설명이나 추론에만 활용하며, 사용자 맞춤형 주행을 위한 다양한 지시를 따르는 데 필요한 유연성이 부족합니다. 이러한 문제를 해결하기 위해, 우리는 먼저 약 10만 개의 장면으로 구성된 대규모 자율 주행 데이터셋(InstructScene)을 구축했습니다. 이 데이터셋은 다양한 주행 지시와 이에 해당하는 경로 정보를 포함하고 있습니다. 우리는 또한 지시 기반 생성 및 계획을 위한 통합된 시각-언어-세계-행동 모델인 Vega를 제안합니다. Vega는 시각 입력(시각)과 언어 지시(언어)를 처리하기 위해 오토리거시브 패러다임을 사용하고, 미래 예측(세계 모델링)과 경로(행동)를 생성하기 위해 디퓨전 패러다임을 사용합니다. 우리는 모달리티 간 상호 작용을 가능하게 하기 위해 공동 어텐션을 사용하고, 다양한 모달리티에 대한 개별적인 투영 레이어를 사용하여 더욱 강력한 기능을 제공합니다. 광범위한 실험 결과, 우리 방법은 우수한 계획 성능을 달성할 뿐만 아니라 강력한 지시 준수 능력을 보여주며, 더욱 지능적이고 개인화된 자율 주행 시스템을 위한 길을 열어줍니다.
Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.