소스 프리 크로스 도메인 퓨샷 학습에서의 판별력 함정: 주의해야 할 점
Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning
소스 프리 크로스 도메인 퓨샷 학습(SF-CDFSL)은 제한된 양의 타겟 도메인 데이터(예: 의료 또는 위성 이미지)를 활용하여 모델을 미세 조정하는 방식으로, CLIP 및 SigLIP과 같은 비전-언어 모델(VLM)이 유망한 결과를 보여주고 있습니다. 기존의 시각 모델 연구에서는 시각적 판별력을 향상시키는 것이 성능 향상에 도움이 된다는 주장이 있습니다. 그러나 VLM 기반 SF-CDFSL 작업에서, 우리는 **시각적 모달리티의 판별력을 강화하는 것이 실제로 VLM의 성능을 저하시킨다**는 것을 발견했습니다. 본 논문에서는 이 현상에 대한 해석과 해결 방안을 제시하고자 합니다. 이론적 및 실험적 증거를 통해, 우리는 일반적인 크로스 엔트로피 손실($ ext{L}_{ ext{vlm}}$)을 사용한 미세 조정이 본질적으로 시각적 학습 부분과 크로스 모달 학습 부분을 모두 포함하며, SF-CDFSL에서 심각하게 교란된 모달리티 불일치를 교정하는 데 중요한 역할을 하는 크로스 모달 학습 부분이 있다는 것을 밝혀냈습니다. 그러나, 시각적 학습은 본질적으로 모델이 $ ext{L}_{ ext{vlm}}$을 줄이는 데 집중하게 만들어 크로스 모달 부분을 고려하지 않도록 유도하며, 이는 크로스 모달 정렬을 방해하고 성능을 저하시킵니다. 이러한 해석을 바탕으로, 우리는 이 문제를 해결하기 위한 접근 방식을 제안합니다. 먼저, 시각적 학습을 변경하여 모델이 크로스 모달 정렬에 집중하도록 유도하고, 그 다음 시각-텍스트 의미 관계를 활용하여 미세 조정 과정에서 시각 및 텍스트 모달리티를 점진적으로 정렬합니다. 다양한 설정, 백본(CLIP, SigLip, PE-Core), 그리고 작업(4개의 CDFSL 데이터셋 및 11개의 FSL 데이터셋)에 대한 광범위한 실험 결과, 우리는 일관되게 새로운 최고 성능을 달성했습니다. 관련 코드는 https://github.com/zhenyuZ-HUST/CVPR26-Mind-the-Discriminability-Trap 에서 확인할 수 있습니다.
Source-Free Cross-Domain Few-Shot Learning (SF-CDFSL) focuses on fine-tuning with limited training data from target domains (e.g., medical or satellite images), where Vision-Language Models (VLMs) such as CLIP and SigLIP have shown promising results. Current works in traditional visual models suggest that improving visual discriminability enhances performance. However, in VLM-based SF-CDFSL tasks, we find that \textbf{strengthening visual-modal discriminability actually suppresses VLMs' performance}. In this paper, we aim to delve into this phenomenon for an interpretation and a solution. By both theoretical and experimental proofs, our study reveals that fine-tuning with the typical cross-entropy loss ($\mathcal{L}_{\mathrm{vlm}}$) inherently includes a visual learning part and a cross-modal learning part, where the cross-modal part is crucial for rectifying the heavily disrupted modality misalignment in SF-CDFSL. However, we find that the visual learning essentially acts as a shortcut that encourages the model to reduce $\mathcal{L}_{\mathrm{vlm}}$ without considering the cross-modal part, therefore hindering the cross-modal alignment and harming the performance. Based on this interpretation, we further propose an approach to address this problem: first, we perturb the visual learning to guide the model to focus on the cross-modal alignment. Then, we use the visual-text semantic relationships to gradually align the visual and textual modalities during the fine-tuning. Extensive experiments on various settings, backbones (CLIP, SigLip, PE-Core), and tasks (4 CDFSL datasets and 11 FSL datasets) show that we consistently set new state-of-the-art results. Code is available at https://github.com/zhenyuZ-HUST/CVPR26-Mind-the-Discriminability-Trap.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.