SpectralGCD: 일반화된 범주 발견을 위한 스펙트럴 개념 선택 및 교차 모달 표현 학습
SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery
일반화된 범주 발견(GCD)은 알려진 클래스의 소규모 레이블 하위 집합을 활용하면서 레이블이 없는 데이터에서 새로운 범주를 식별하는 것을 목표로 한다. 이미지 특징만으로 매개변수적 분류기를 학습시키면 종종 기존 클래스에 과적합되는 결과가 발생하며, 최근의 멀티모달 접근법들은 텍스트 정보를 통합하여 성능을 향상시키고 있다. 그러나 이러한 방법들은 모달리티를 독립적으로 처리하며 높은 연산 비용을 발생시킨다. 본 논문에서는 통합된 교차 모달 표현으로서 CLIP 교차 모달 이미지-개념 유사도를 사용하는, 효율적이고 효과적인 멀티모달 GCD 접근법인 SpectralGCD를 제안한다. 각 이미지는 대규모의 태스크 독립적(task-agnostic) 사전에서 추출된 의미론적 개념들의 혼합으로 표현되며, 이는 학습을 명시적인 의미론에 고정시키고 거짓된(spurious) 시각적 단서에 대한 의존도를 줄인다. 효율적인 학생(student) 모델이 학습한 표현의 의미론적 품질을 유지하기 위해, 강력한 교사(teacher) 모델이 측정한 소프트맥스(softmax) 유사도에 대한 교차 모달 공분산 행렬을 활용하여 사전에서 관련성 있는 개념만을 자동으로 유지하는 스펙트럴 필터링(Spectral Filtering)을 도입한다. 동일한 교사 모델로부터의 순방향 및 역방향 지식 증류(knowledge distillation)는 학생 모델의 교차 모달 표현이 의미론적으로 충분할 뿐만 아니라 잘 정렬된 상태를 유지하도록 보장한다. 6개의 벤치마크에서 SpectralGCD는 아주 적은 연산 비용만으로 기존 최첨단(state-of-the-art) 방법론들과 비슷하거나 상당히 우수한 정확도를 제공한다. 코드는 https://github.com/miccunifi/SpectralGCD 에서 공개적으로 확인할 수 있다.
Generalized Category Discovery (GCD) aims to identify novel categories in unlabeled data while leveraging a small labeled subset of known classes. Training a parametric classifier solely on image features often leads to overfitting to old classes, and recent multimodal approaches improve performance by incorporating textual information. However, they treat modalities independently and incur high computational cost. We propose SpectralGCD, an efficient and effective multimodal approach to GCD that uses CLIP cross-modal image-concept similarities as a unified cross-modal representation. Each image is expressed as a mixture over semantic concepts from a large task-agnostic dictionary, which anchors learning to explicit semantics and reduces reliance on spurious visual cues. To maintain the semantic quality of representations learned by an efficient student, we introduce Spectral Filtering which exploits a cross-modal covariance matrix over the softmaxed similarities measured by a strong teacher model to automatically retain only relevant concepts from the dictionary. Forward and reverse knowledge distillation from the same teacher ensures that the cross-modal representations of the student remain both semantically sufficient and well-aligned. Across six benchmarks, SpectralGCD delivers accuracy comparable to or significantly superior to state-of-the-art methods at a fraction of the computational cost. The code is publicly available at: https://github.com/miccunifi/SpectralGCD.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.