검증 가능한 개념 정렬을 위한 프로토타입 기반 개념 모델
Prototype-Grounded Concept Models for Verifiable Concept Alignment
개념 병목 모델(CBM)은 심층 학습의 해석 가능성을 향상시키기 위해 인간이 이해할 수 있는 개념을 통해 예측을 구조화하지만, 학습된 개념이 인간이 의도한 의미와 일치하는지 확인하는 방법을 제공하지 않아 해석 가능성을 저해합니다. 본 연구에서는 프로토타입 기반 개념 모델(PGCM)을 제안합니다. PGCM은 개념을 학습된 시각적 프로토타입, 즉 개념에 대한 명시적인 증거 역할을 하는 이미지 부분에 연결합니다. 이러한 연결은 개념의 의미를 직접적으로 검사할 수 있도록 하며, 프로토타입 수준에서 인간의 개입을 통해 불일치를 수정할 수 있도록 지원합니다. 실험적으로, PGCM은 최첨단 CBM과 동등한 예측 성능을 보이며, 투명성, 해석 가능성 및 개입 가능성을 크게 향상시킵니다.
Concept Bottleneck Models (CBMs) aim to improve interpretability in Deep Learning by structuring predictions through human-understandable concepts, but they provide no way to verify whether learned concepts align with the human's intended meaning, hurting interpretability. We introduce Prototype-Grounded Concept Models (PGCMs), which ground concepts in learned visual prototypes: image parts that serve as explicit evidence for the concepts. This grounding enables direct inspection of concept semantics and supports targeted human intervention at the prototype level to correct misalignments. Empirically, PGCMs match the predictive performance of state-of-the-art CBMs while substantially improving transparency, interpretability, and intervenability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.