EvoDriveVLA: 협력적 인지-계획 증류를 통한 자율 주행 비전-언어-행동 모델의 진화적 학습
EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation
비전-언어-행동 모델은 자율 주행 분야에서 큰 잠재력을 보여주었지만, 시각 인코더를 수정하면 인지 능력이 저하되고, 장기적인 계획 수립 과정에서 불안정성이 누적되는 문제가 있습니다. 이러한 문제점을 해결하기 위해, 우리는 협력적인 인지-계획 증류 프레임워크인 EvoDriveVLA를 제안합니다. EvoDriveVLA는 자체적으로 앵커를 갖는 인지 제약 조건과 오라클 기반의 경로 최적화를 통합합니다. 구체적으로, 자체 앵커를 사용하는 시각 증류는 경로 지향적인 핵심 영역 인지 능력을 통해 학생 모델의 표현을 정규화합니다. 동시에, 오라클 기반의 경로 증류는 미래를 예측하는 오라클 모델을 사용하여 거칠고 세밀한 경로 개선과 몬테카를로 드롭아웃 샘플링을 통해 고품질의 경로 후보를 생성하고, 이를 통해 학생 모델의 예측을 안내하는 최적의 경로를 선택합니다. EvoDriveVLA는 개방형 평가에서 최첨단 성능을 달성했으며, 폐쇄형 평가에서 성능을 크게 향상시켰습니다. 저희의 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/hey-cjj/EvoDriveVLA.
Vision-Language-Action models have shown great promise for autonomous driving, yet they suffer from degraded perception after unfreezing the visual encoder and struggle with accumulated instability in long-term planning. To address these challenges, we propose EvoDriveVLA-a novel collaborative perception-planning distillation framework that integrates self-anchored perceptual constraints and oracle-guided trajectory optimization. Specifically, self-anchored visual distillation leverages self-anchor teacher to deliver visual anchoring constraints, regularizing student representations via trajectory-guided key-region awareness. In parallel, oracle-guided trajectory distillation employs a future-aware oracle teacher with coarse-to-fine trajectory refinement and Monte Carlo dropout sampling to produce high-quality trajectory candidates, thereby selecting the optimal trajectory to guide the student's prediction. EvoDriveVLA achieves SOTA performance in open-loop evaluation and significantly enhances performance in closed-loop evaluation. Our code is available at: https://github.com/hey-cjj/EvoDriveVLA.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.