계층적으로 강건한 제로샷 비전-언어 모델
Hierarchically Robust Zero-shot Vision-language Models
비전-언어 모델(VLM)은 제로샷 분류를 수행할 수 있지만, 적대적 공격에 취약합니다. 강건한 미세 조정은 이러한 취약성을 개선하지만, 기존 방법은 이미지 임베딩과 고정된 텍스트 임베딩을 정렬하여 자연스러운 성능과 강건성을 저해합니다. 또한, 모델이 기본 클래스(예: 고양이)뿐만 아니라 상위 클래스(예: 포유류)를 대상으로 하는 적대적 공격에 직면할 때 강건성 저하가 발생합니다. 따라서, 적대적 강건성을 향상시키고 클래스 공간의 고유한 계층적 특성을 활용하기 위해, 우리는 계층적 임베딩을 기반으로 한 새로운 적대적 미세 조정 프레임워크를 제안합니다. 이 프레임워크는 이미지-텍스트 모달리티의 여러 수준의 적대적 강건한 정렬을 포함합니다. 추가적인 메커니즘은 시각적 임베딩을 원하는 계층 깊이에 배치하며, 계층 내 임베딩 깊이와 최대 실현 가능한 마진 크기 간의 이론적 관계를 제시합니다. 우리 모델은 여러 마진 크기를 자연스럽게 구현하여 강건화를 위한 적대적 일반화 능력을 향상시킵니다. 다양한 부모 레이블을 가진 트리들이 동일한 리프 레이블을 공유할 수 있다는 점을 고려하여, 의미적 다양성을 높이기 위해 여러 트리 간의 정렬을 고려합니다. 여러 데이터 세트에 대한 실험을 수행했습니다.
Vision-Language Models (VLMs) can perform zero-shot classification but are susceptible to adversarial attacks. While robust fine-tuning improves their robustness, existing approaches align fixed text embeddings with an image embedding, sacrificing natural performance and robustness. A robustness degradation also occurs when a model faces adversarial attacks targeting superclasses (parent classes, e.g., mammal) in addition to their base (leaf) classes (e.g., cat). Thus, to enhance adversarial robustness and leverage the inherent hierarchical properties of class space, we propose a novel adversarial fine-tuning framework based on hierarchical embeddings and several levels of adversarially robust alignment of image-text modalities. Additional mechanisms place visual embeddings at the desired depth of hierarchy, and we provide a theoretical connection between the depth of embedding in the hierarchy and the maximum viable margin size. Our model naturally realizes several margin sizes, boosting generalization of adversaries for robustification. As various trees with different parent labels can share the same leaf labels, we also consider aligning over multiple trees to boost semantic variety. Experiments across several datasets are performed.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.