2601.21288v1 Jan 29, 2026 cs.AI

Drive-KD: 자율 주행 VLM을 위한 다중 교사 증류

Drive-KD: Multi-Teacher Distillation for VLMs in Autonomous Driving

Weitong Lian
Weitong Lian
Citations: 2
h-index: 1
Zecong Tang
Zecong Tang
Citations: 4
h-index: 2
Haoran Li
Haoran Li
Citations: 2
h-index: 1
Zixu Wang
Zixu Wang
Citations: 2
h-index: 1
Lingyi Meng
Lingyi Meng
Citations: 2
h-index: 1
Tengju Ru
Tengju Ru
Citations: 2
h-index: 1
Zhejun Cui
Zhejun Cui
Citations: 2
h-index: 1
Yichen Zhu
Yichen Zhu
Citations: 3
h-index: 1
Hangshuo Cao
Hangshuo Cao
Citations: 14
h-index: 1
Qi Kang
Qi Kang
Citations: 2
h-index: 1
Tianxing Chen
Tianxing Chen
Citations: 387
h-index: 8
Yusen Qin
Yusen Qin
Citations: 141
h-index: 4
Kaixuan Wang
Kaixuan Wang
Citations: 5
h-index: 1
Yu Zhang
Yu Zhang
Citations: 2
h-index: 1
Yifei Wang
Yifei Wang
Citations: 2
h-index: 1
Tianjian Gao
Tianjian Gao
Citations: 9
h-index: 2

자율 주행은 중요하고 안전이 필수적인 작업이며, 최근 LLM/VLM의 발전은 이 분야의 추론 및 계획에 새로운 가능성을 열었습니다. 그러나 거대 모델은 상당한 GPU 메모리를 요구하고 높은 추론 지연 시간을 보이는 반면, 기존의 지도 미세 조정(SFT)은 소형 모델의 능력 격차를 해소하는 데 종종 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 본 논문에서는 자율 주행을 '인지-추론-계획'의 3요소로 분해하고 지식 증류를 통해 이러한 능력을 전이하는 프레임워크인 Drive-KD를 제안합니다. 우리는 계층별 어텐션을 증류 신호로 식별하여 베이스라인을 능가하는 능력별 단일 교사 모델을 구축합니다. 또한, 이러한 단일 교사 설정을 다중 교사 증류 프레임워크로 통합하고, 능력 간 기울기 충돌을 완화하기 위해 비대칭 기울기 투영을 도입합니다. 광범위한 평가를 통해 다양한 모델 제품군과 규모에 걸친 제안 방법의 일반화 성능을 검증했습니다. 실험 결과, 증류된 InternVL3-1B 모델은 같은 제품군의 사전 학습된 78B 모델에 비해 약 42배 적은 GPU 메모리와 약 11.4배 높은 처리량을 보이면서도 DriveBench에서 더 우수한 전반적인 성능을 달성했으며, 계획 차원에서는 GPT-5.1을 능가하여 효율적인 자율 주행 VLM을 향한 통찰력을 제공합니다.

Original Abstract

Autonomous driving is an important and safety-critical task, and recent advances in LLMs/VLMs have opened new possibilities for reasoning and planning in this domain. However, large models demand substantial GPU memory and exhibit high inference latency, while conventional supervised fine-tuning (SFT) often struggles to bridge the capability gaps of small models. To address these limitations, we propose Drive-KD, a framework that decomposes autonomous driving into a "perception-reasoning-planning" triad and transfers these capabilities via knowledge distillation. We identify layer-specific attention as the distillation signal to construct capability-specific single-teacher models that outperform baselines. Moreover, we unify these single-teacher settings into a multi-teacher distillation framework and introduce asymmetric gradient projection to mitigate cross-capability gradient conflicts. Extensive evaluations validate the generalization of our method across diverse model families and scales. Experiments show that our distilled InternVL3-1B model, with ~42 times less GPU memory and ~11.4 times higher throughput, achieves better overall performance than the pretrained 78B model from the same family on DriveBench, and surpasses GPT-5.1 on the planning dimension, providing insights toward efficient autonomous driving VLMs.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!