ProtoQuant: 일반 및 세분화된 이미지 분류를 위한 프로토타입 부품의 양자화
ProtoQuant: Quantization of Prototypical Parts For General and Fine-Grained Image Classification
프로토타입 기반 모델은 직관적인 해석 가능성을 제공하지만, 일반적으로 ImageNet과 같은 대규모 데이터셋에서의 일반화 성능이 낮고, 계산 비용이 많이 드는 기반 모델의 미세 조정이 필요합니다. 또한, 기존 방법들은 종종 "프로토타입 드리프트" 문제를 겪는데, 이는 학습된 프로토타입이 학습 데이터 분포에 대한 명확한 기반을 갖지 못하고, 작은 변화에도 활성화 패턴이 변하는 현상을 의미합니다. 본 논문에서는 잠재 벡터 양자화를 통해 프로토타입 안정성과 기반 해석 가능성을 달성하는 새로운 아키텍처인 ProtoQuant을 제안합니다. 프로토타입을 잠재 공간 내의 이산적인 학습된 코드북으로 제한함으로써, 프로토타입이 기반 모델을 업데이트할 필요 없이 학습 데이터의 충실한 표현으로 유지되도록 합니다. 이러한 설계 덕분에 ProtoQuant은 효율적이고 해석 가능한 방식으로 대규모 데이터셋에 적용될 수 있습니다. 우리는 ProtoQuant을 ImageNet과 CUB-200, Cars-196 등 여러 세분화된 벤치마크 데이터셋에서 평가했습니다. 그 결과, ProtoQuant은 ImageNet 데이터셋에 대한 경쟁력 있는 분류 정확도를 달성하며, 다른 프로토타입 기반 모델과 유사한 수준의 해석 가능성을 제공합니다.
Prototypical parts-based models offer a "this looks like that" paradigm for intrinsic interpretability, yet they typically struggle with ImageNet-scale generalization and often require computationally expensive backbone finetuning. Furthermore, existing methods frequently suffer from "prototype drift," where learned prototypes lack tangible grounding in the training distribution and change their activation under small perturbations. We present ProtoQuant, a novel architecture that achieves prototype stability and grounded interpretability through latent vector quantization. By constraining prototypes to a discrete learned codebook within the latent space, we ensure they remain faithful representations of the training data without the need to update the backbone. This design allows ProtoQuant to function as an efficient, interpretable head that scales to large-scale datasets. We evaluate ProtoQuant on ImageNet and several fine-grained benchmarks (CUB-200, Cars-196). Our results demonstrate that ProtoQuant achieves competitive classification accuracy while generalizing to ImageNet and comparable interpretability metrics to other prototypical-parts-based methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.