FROST-Drive: 동결된 비전 인코더를 사용한 확장 가능하고 효율적인 엔드 투 엔드 자율 주행
FROST-Drive: Scalable and Efficient End-to-End Driving with a Frozen Vision Encoder
자율 주행 분야의 엔드 투 엔드(E2E) 모델은 센서 입력을 직접 제어 명령으로 변환하는 것을 목표로 하지만, 새로운 복잡한 시나리오에 대한 일반화 능력은 여전히 중요한 과제입니다. 자율 주행 데이터셋에 대해 비전 인코더를 완전히 미세 조정하는 일반적인 방식은 모델이 학습 데이터에 지나치게 특화되어 일반화 능력을 제한할 수 있습니다. 본 연구는 이러한 학습 패러다임의 필요성을 검증합니다. 우리는 사전 학습된 비전-언어 모델(VLM)의 강력한 일반화 능력을 보존하고 활용하도록 설계된 새로운 E2E 아키텍처인 FROST-Drive를 제안합니다. 인코더의 가중치를 동결함으로써, 우리의 접근 방식은 VLM에서 풍부하고 일반적인 세계 지식을 자율 주행 작업에 직접적으로 전달합니다. 우리의 모델 아키텍처는 이 동결된 인코더와 다중 모드 융합을 위한 트랜스포머 기반 어댑터, 그리고 부드러운 경로 지점 생성을 위한 GRU 기반 디코더를 결합합니다. 또한, 견고한 경로 계획을 우선시하는 지표인 Rater Feedback Score (RFS)를 직접적으로 최적화하도록 설계된 사용자 정의 손실 함수를 도입했습니다. Waymo Open E2E 데이터셋이라는 대규모 데이터셋을 사용하여 광범위한 실험을 수행한 결과, 동결된 인코더 접근 방식이 전체 미세 조정을 사용하는 모델보다 훨씬 뛰어난 성능을 보이는 것을 확인했습니다. 우리의 결과는 능숙한 VLM의 광범위한 지식을 보존하는 것이 집중적인 도메인별 적응보다 강력하고 일반화 가능한 자율 주행 성능을 달성하는 데 더 효과적인 전략이라는 것을 보여주는 중요한 증거를 제공합니다. 이는 실제 응용 분야의 복잡성을 더 잘 처리할 수 있는 비전 기반 모델을 개발하는 새로운 방법을 제시합니다.
End-to-end (E2E) models in autonomous driving aim to directly map sensor inputs to control commands, but their ability to generalize to novel and complex scenarios remains a key challenge. The common practice of fully fine-tuning the vision encoder on driving datasets potentially limits its generalization by causing the model to specialize too heavily in the training data. This work challenges the necessity of this training paradigm. We propose FROST-Drive, a novel E2E architecture designed to preserve and leverage the powerful generalization capabilities of a pretrained vision encoder from a Vision-Language Model (VLM). By keeping the encoder's weights frozen, our approach directly transfers the rich, generalized world knowledge from the VLM to the driving task. Our model architecture combines this frozen encoder with a transformer-based adapter for multimodal fusion and a GRU-based decoder for smooth waypoint generation. Furthermore, we introduce a custom loss function designed to directly optimize for Rater Feedback Score (RFS), a metric that prioritizes robust trajectory planning. We conduct extensive experiments on Waymo Open E2E Dataset, a large-scale datasets deliberately curated to capture the long-tail scenarios, demonstrating that our frozen-encoder approach significantly outperforms models that employ full fine-tuning. Our results provide substantial evidence that preserving the broad knowledge of a capable VLM is a more effective strategy for achieving robust, generalizable driving performance than intensive domain-specific adaptation. This offers a new pathway for developing vision-based models that can better handle the complexities of real-world application domains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.