2601.08017v1 Jan 12, 2026 cs.CV

어댑터 기반 시각-언어 모델에서 텍스트와 이미지의 표현이 첫 번째 레이어부터 일치함

Representations of Text and Images Align From Layer One

F. Tramèr
F. Tramèr
Citations: 1,072
h-index: 14
Evžen Wybitul
Evžen Wybitul
ETH Zürich
Citations: 21
h-index: 2
Javier Rando
Javier Rando
ETH Zürich
Citations: 2,168
h-index: 17
Stanislav Fort
Stanislav Fort
Stanford University
Citations: 11,493
h-index: 22

본 논문에서는 어댑터 기반 시각-언어 모델에서 다양한 개념에 대해 이미지와 해당 텍스트 설명의 표현이 첫 번째 레이어부터 의미 있게 일치한다는 것을 보여줍니다. 이는 기존의 이러한 이미지-텍스트 정렬이 오직 후반 레이어에서만 나타난다는 관념과는 대조됩니다. DeepDream에서 영감을 받은 새로운 합성 기반 방법을 사용하여 이를 입증합니다. 예를 들어, '목성'과 같은 텍스트 개념을 입력으로 받아 특정 레이어에서의 개념 벡터를 추출하고, 최적화 과정을 통해 해당 벡터와 표현이 일치하는 이미지를 생성합니다. 저희는 Gemma 3의 7개 레이어에 걸쳐 수백 개의 개념에 대해 이 방법을 적용한 결과, 생성된 이미지가 목표 텍스트 개념의 중요한 시각적 특징을 자주 나타내는 것을 확인했습니다. 예를 들어, 첫 번째 레이어에서조차 50% 이상의 이미지가 동물, 활동 또는 계절과 관련된 특징을 보여줍니다. 따라서 저희의 방법은 개념별 및 레이어별로 이미지-텍스트 정렬에 대한 직접적이고 건설적인 증거를 제공합니다. 기존의 다중 모드 정렬 측정 방법과 달리, 저희의 접근 방식은 간단하고 빠르며, 보조 모델이나 데이터 세트가 필요하지 않습니다. 또한, 이미지 처리 구성 요소를 역추적하여 모델의 표현 공간을 시각화하는 방법을 제공함으로써 모델 해석 가능성을 위한 새로운 경로를 제시합니다.

Original Abstract

We show that for a variety of concepts in adapter-based vision-language models, the representations of their images and their text descriptions are meaningfully aligned from the very first layer. This contradicts the established view that such image-text alignment only appears in late layers. We show this using a new synthesis-based method inspired by DeepDream: given a textual concept such as "Jupiter", we extract its concept vector at a given layer, and then use optimisation to synthesise an image whose representation aligns with that vector. We apply our approach to hundreds of concepts across seven layers in Gemma 3, and find that the synthesised images often depict salient visual features of the targeted textual concepts: for example, already at layer 1, more than 50 % of images depict recognisable features of animals, activities, or seasons. Our method thus provides direct, constructive evidence of image-text alignment on a concept-by-concept and layer-by-layer basis. Unlike previous methods for measuring multimodal alignment, our approach is simple, fast, and does not require auxiliary models or datasets. It also offers a new path towards model interpretability, by providing a way to visualise a model's representation space by backtracing through its image processing components.

1 Citations
0 Influential
11 Altmetric
56.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!