도메인 불변 프롬프트 학습을 통한 시각-언어 모델
Domain-Invariant Prompt Learning for Vision-Language Models
CLIP과 같은 대규모 사전 학습 시각-언어 모델은 이미지와 텍스트를 공통 특징 공간에 맞춰 컴퓨터 비전 분야에 혁신을 가져왔으며, 프롬프팅을 통해 강력한 제로샷 전이 기능을 제공합니다. 컨텍스트 최적화(CoOp)와 같은 소프트 프롬프팅은 컨텍스트 벡터 집합을 학습하여 이러한 모델을 하위 작업 인지(downstream recognition)에 효과적으로 적용합니다. 그러나 CoOp은 아직 관찰되지 않은 분포에서의 도메인 변화를 처리하기 위한 명시적인 메커니즘이 부족합니다. 이를 해결하기 위해, 우리는 도메인 일반화에 최적화된 CoOp의 확장 버전인 도메인 불변 컨텍스트 최적화(DiCoOp)를 제안합니다. DiCoOp은 적대적 학습 방식을 사용하여 모델이 분류를 위한 판별력을 유지하면서 도메인 불변 프롬프트를 학습하도록 강제합니다. 실험 결과는 DiCoOp이 다양한 시각 영역에서 도메인 일반화 작업에서 일관되게 CoOp보다 우수한 성능을 보임을 보여줍니다.
Large pre-trained vision-language models like CLIP have transformed computer vision by aligning images and text in a shared feature space, enabling robust zero-shot transfer via prompting. Soft-prompting, such as Context Optimization (CoOp), effectively adapts these models for downstream recognition tasks by learning a set of context vectors. However, CoOp lacks explicit mechanisms for handling domain shifts across unseen distributions. To address this, we propose Domain-invariant Context Optimization (DiCoOp), an extension of CoOp optimized for domain generalization. By employing an adversarial training approach, DiCoOp forces the model to learn domain-invariant prompts while preserving discriminative power for classification. Experimental results show that DiCoOp consistently surpasses CoOp in domain generalization tasks across diverse visual domains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.