강력한 교사의 중요성: 시각적 사전 정보 강화와 텍스트 기반 다중 관점 지식 증류
Powerful Teachers Matter: Text-Guided Multi-view Knowledge Distillation with Visual Prior Enhancement
지식 증류는 대규모 교사 모델의 지식을 더 작은 학생 모델로 전달하여 효율적인 추론을 가능하게 합니다. 기존 방법들은 주로 증류 전략에 초점을 맞추지만, 교사 모델의 지식 품질 향상의 중요성을 간과하는 경우가 많습니다. 본 논문에서는 텍스트 기반 다중 관점 지식 증류(TMKD)를 제안합니다. TMKD는 시각적 교사와 텍스트 교사(CLIP)라는 이중 모달 교사를 활용하여 풍부한 지도 신호를 제공합니다. 구체적으로, 우리는 시각적 사전 정보(엣지 및 고주파 특징)를 통합한 다중 관점 입력을 통해 시각적 교사를 향상시키고, 텍스트 교사는 사전 정보를 고려한 프롬프트를 통해 의미 기반 가중치를 생성하여 적응적 특징 융합을 안내합니다. 또한, 학생 모델의 의미 지식을 강화하기 위해 시각-언어 대조 정규화를 도입합니다. 다섯 가지 벤치마크에 대한 광범위한 실험 결과, TMKD는 일관되게 지식 증류 성능을 최대 4.49% 향상시켰으며, 이는 우리의 이중 교사 다중 관점 향상 전략의 효과를 입증합니다. 코드: https://anonymous.4open.science/r/TMKD-main-44D1
Knowledge distillation transfers knowledge from large teacher models to smaller students for efficient inference. While existing methods primarily focus on distillation strategies, they often overlook the importance of enhancing teacher knowledge quality. In this paper, we propose Text-guided Multi-view Knowledge Distillation (TMKD), which leverages dual-modality teachers, a visual teacher and a text teacher (CLIP), to provide richer supervisory signals. Specifically, we enhance the visual teacher with multi-view inputs incorporating visual priors (edge and high-frequency features), while the text teacher generates semantic weights through prior-aware prompts to guide adaptive feature fusion. Additionally, we introduce vision-language contrastive regularization to strengthen semantic knowledge in the student model. Extensive experiments on five benchmarks demonstrate that TMKD consistently improves knowledge distillation performance by up to 4.49\%, validating the effectiveness of our dual-teacher multi-view enhancement strategy. Code is available at https://anonymous.4open.science/r/TMKD-main-44D1.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.