PAND: 프롬프트 기반 이웃 증류를 통한 경량화된 미세 입체 시각 분류
PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification
미세 입체 시각 분류(FGVC)에서 대규모 시각-언어 모델(VLM)의 지식을 경량화된 네트워크로 전달하는 것은 매우 중요하지만, 고정된 프롬프트와 전역 정렬에 대한 의존성으로 인해 어려운 과제입니다. 이를 해결하기 위해, 우리는 프롬프트 기반 이웃 증류(PAND)라는 두 단계 프레임워크를 제안합니다. PAND는 의미 조정과 구조 전송을 분리합니다. 첫째, 프롬프트 기반 의미 조정을 통해 적응적인 의미 기준점을 생성합니다. 둘째, 학생 네트워크의 지역적 의사 결정 구조를 제약하기 위해 이웃 정보를 고려한 구조 증류 전략을 도입합니다. PAND는 네 가지 FGVC 벤치마크에서 최첨단 방법보다 일관되게 우수한 성능을 보입니다. 특히, 우리의 ResNet-18 학생 모델은 CUB-200 데이터셋에서 76.09%의 정확도를 달성하여 강력한 기준 모델인 VL2Lite를 3.4% 이상 능가했습니다. 코드는 https://github.com/LLLVTA/PAND에서 확인할 수 있습니다.
Distilling knowledge from large Vision-Language Models (VLMs) into lightweight networks is crucial yet challenging in Fine-Grained Visual Classification (FGVC), due to the reliance on fixed prompts and global alignment. To address this, we propose PAND (Prompt-Aware Neighborhood Distillation), a two-stage framework that decouples semantic calibration from structural transfer. First, we incorporate Prompt-Aware Semantic Calibration to generate adaptive semantic anchors. Second, we introduce a neighborhood-aware structural distillation strategy to constrain the student's local decision structure. PAND consistently outperforms state-of-the-art methods on four FGVC benchmarks. Notably, our ResNet-18 student achieves 76.09% accuracy on CUB-200, surpassing the strong baseline VL2Lite by 3.4%. Code is available at https://github.com/LLLVTA/PAND.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.