ProtoDCS: 비전-언어 모델을 위한 강력하고 효율적인 오픈-셋 테스트 시간 적응
ProtoDCS: Towards Robust and Efficient Open-Set Test-Time Adaptation for Vision-Language Models
대규모 비전-언어 모델(VLM)은 뛰어난 제로샷 인식 능력을 보이지만, 실제 환경에서의 활용은 데이터 분포 변화로 인해 어려움을 겪습니다. 테스트 시간 적응(TTA)은 이러한 문제를 완화할 수 있지만, 기존의 VLM 기반 TTA 방법은 주로 클로즈-셋 가정을 기반으로 작동하며, 테스트 데이터 스트림에 분포 변화가 있는 인-디스트리뷰션(csID) 데이터와 아웃-오브-디스트리뷰션(csOOD) 데이터가 모두 포함된 오픈-셋 시나리오에서는 제대로 작동하지 않습니다. 이는 모델이 정확도를 높이기 위해 알려진 csID 클래스에 적응하는 동시에, 간섭을 피하기 위해 알려지지 않은 csOOD 샘플을 구별해야 한다는 중요한 과제를 안겨줍니다. 기존의 오픈-셋 TTA(OSTTA) 방법은 분리를 위해 하드 임계값을 사용하고, 적응을 위해 엔트로피 최소화를 사용합니다. 이러한 전략은 취약하며, 종종 모호한 csOOD 샘플을 오분류하고 과도한 확신을 유발하며, 파라미터 업데이트 메커니즘은 VLM의 계산 비용을 매우 높입니다. 이러한 한계를 해결하기 위해, 우리는 csID 및 csOOD 샘플을 효과적으로 분리하여 VLM이 csID 데이터에 안전하고 효율적으로 적응할 수 있도록 하는 강력한 OSTTA 프레임워크인 프로토타입 기반 이중 검증 분리(ProtoDCS)를 제안합니다. 주요 기여 내용은 다음과 같습니다: (1) 취약한 임계값 대신 확률적 가우시안 혼합 모델(GMM) 검증을 사용하는 새로운 이중 검증 분리 메커니즘; (2) 불확실성을 고려한 손실 함수와 효율적인 프로토타입 수준 업데이트를 사용하는 증거 기반 적응 전략으로, 과도한 확신을 줄이고 계산 오버헤드를 감소시킵니다. CIFAR-10/100-C 및 Tiny-ImageNet-C 데이터셋에 대한 광범위한 실험 결과, ProtoDCS는 최첨단 성능을 달성하며, 알려진 클래스 정확도와 이상 탐지 지표를 크게 향상시켰습니다. 코드는 https://github.com/O-YangF/ProtoDCS 에서 확인할 수 있습니다.
Large-scale Vision-Language Models (VLMs) exhibit strong zero-shot recognition, yet their real-world deployment is challenged by distribution shifts. While Test-Time Adaptation (TTA) can mitigate this, existing VLM-based TTA methods operate under a closed-set assumption, failing in open-set scenarios where test streams contain both covariate-shifted in-distribution (csID) and out-of-distribution (csOOD) data. This leads to a critical difficulty: the model must discriminate unknown csOOD samples to avoid interference while simultaneously adapting to known csID classes for accuracy. Current open-set TTA (OSTTA) methods rely on hard thresholds for separation and entropy minimization for adaptation. These strategies are brittle, often misclassifying ambiguous csOOD samples and inducing overconfident predictions, and their parameter-update mechanism is computationally prohibitive for VLMs. To address these limitations, we propose Prototype-based Double-Check Separation (ProtoDCS), a robust framework for OSTTA that effectively separates csID and csOOD samples, enabling safe and efficient adaptation of VLMs to csID data. Our main contributions are: (1) a novel double-check separation mechanism employing probabilistic Gaussian Mixture Model (GMM) verification to replace brittle thresholding; and (2) an evidence-driven adaptation strategy utilizing uncertainty-aware loss and efficient prototype-level updates, mitigating overconfidence and reducing computational overhead. Extensive experiments on CIFAR-10/100-C and Tiny-ImageNet-C demonstrate that ProtoDCS achieves state-of-the-art performance, significantly boosting both known-class accuracy and OOD detection metrics. Code will be available at https://github.com/O-YangF/ProtoDCS.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.