2601.13798v1 Jan 20, 2026 cs.CV

인사이트: 시각-언어 인코더에서의 해석 가능한 의미 계층 구조

Insight: Interpretable Semantic Hierarchies in Vision-Language Encoders

B. Schiele
B. Schiele
Citations: 94,533
h-index: 136
Jonas Fischer
Jonas Fischer
Citations: 8
h-index: 1
Sukrut Rao
Sukrut Rao
Max Planck Institute for Informatics
Citations: 351
h-index: 9
Kai Wittenmayer
Kai Wittenmayer
Citations: 0
h-index: 0
Amin Parchami-Araghi
Amin Parchami-Araghi
Citations: 0
h-index: 0

언어와 연계된 시각 기반 모델은 다양한 하위 작업에서 뛰어난 성능을 보입니다. 그러나 이러한 모델이 학습하는 표현은 여전히 불투명하여 의사 결정 과정을 이해하기 어렵습니다. 최근 연구에서는 이러한 표현을 인간이 이해할 수 있는 개념으로 분해하려는 시도가 있었지만, 공간적 정밀도가 낮고 이미지 분류 작업에만 제한됩니다. 본 연구에서는 '인사이트(Insight)'라는 언어 연계 개념 기반 모델을 제안합니다. '인사이트'는 입력 이미지 내에서 공간적으로 위치가 명확하고 인간이 이해할 수 있는 세분화된 개념을 제공합니다. 우리는 계층적 희소 오토인코더와 강력한 의미 표현을 가진 기반 모델을 활용하여 다양한 수준의 개념을 자동으로 추출합니다. 개념 간의 지역적 공존 관계를 분석하여 개념 간의 관계를 정의하고, 이를 통해 개념 명명 정확도를 향상시키고 더욱 풍부한 설명을 얻을 수 있습니다. 벤치마크 데이터에서 '인사이트'는 불투명한 기반 모델과 경쟁력 있는 분류 및 분할 성능을 제공하는 동시에 세분화되고 고품질의 개념 기반 설명을 제공한다는 것을 보여줍니다. 관련 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/kawi19/Insight.

Original Abstract

Language-aligned vision foundation models perform strongly across diverse downstream tasks. Yet, their learned representations remain opaque, making interpreting their decision-making hard. Recent works decompose these representations into human-interpretable concepts, but provide poor spatial grounding and are limited to image classification tasks. In this work, we propose Insight, a language-aligned concept foundation model that provides fine-grained concepts, which are human-interpretable and spatially grounded in the input image. We leverage a hierarchical sparse autoencoder and a foundation model with strong semantic representations to automatically extract concepts at various granularities. Examining local co-occurrence dependencies of concepts allows us to define concept relationships. Through these relations we further improve concept naming and obtain richer explanations. On benchmark data, we show that Insight provides performance on classification and segmentation that is competitive with opaque foundation models while providing fine-grained, high quality concept-based explanations. Code is available at https://github.com/kawi19/Insight.

1 Citations
0 Influential
63.195286648076 Altmetric
317.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!