2603.11024v1 Mar 11, 2026 cs.CV

AI는 미술사를 연구하는 사람들과 같은 방식으로 볼까요? 비전 언어 모델이 예술적 스타일을 인식하는 방식에 대한 해석

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Elias Stengel-Eskin
Elias Stengel-Eskin
Citations: 891
h-index: 17
Mohit Bansal
Mohit Bansal
Citations: 886
h-index: 19
Marvin Limpijankit
Marvin Limpijankit
Citations: 0
h-index: 0
Milad Alshomary
Milad Alshomary
Citations: 619
h-index: 14
Yassin Oulad Daoud
Yassin Oulad Daoud
Citations: 0
h-index: 0
Amith Ananthram
Amith Ananthram
Citations: 102
h-index: 6
Timothy E Trombley
Timothy E Trombley
Citations: 41
h-index: 3
Noam M. Elcott
Noam M. Elcott
Citations: 90
h-index: 4
Kathleen McKeown
Kathleen McKeown
Citations: 33
h-index: 3

최근 비전 언어 모델(VLMs)은 시각적 질의 응답 및 객체 감지와 같은 다양한 컴퓨터 비전 작업에서 높은 성능을 보이고 있으며, 예술 분야에서도 작품 분석부터 예술 작품 생성까지 강력한 능력을 보여주고 있습니다. 본 연구는 컴퓨터 과학자와 미술사가의 융합 연구를 통해, VLMs가 예술적 스타일을 예측하는 메커니즘을 분석하고, 이러한 메커니즘이 미술사가들이 예술적 스타일을 이해하는 데 사용하는 기준과 얼마나 일치하는지 평가합니다. 잠재 공간 분해 접근 방식을 사용하여 예술 스타일 예측을 이끄는 개념을 식별하고, 정량적 평가, 인과 분석 및 미술사 전문가의 평가를 수행합니다. 연구 결과, 추출된 개념 중 73%가 미술사 전문가에 의해 일관성 있고 의미 있는 시각적 특징을 나타내는 것으로 판단되었으며, 특정 예술 작품의 스타일을 예측하는 데 사용된 개념의 90%가 관련성이 있다고 평가되었습니다. 관련 없는 개념이 성공적으로 스타일 예측에 사용된 경우, 미술사 전문가들은 그 이유를 파악했는데, 예를 들어 모델이 '어두움/밝음'과 같은 보다 형식적인 용어로 개념을 '이해'했을 수 있습니다.

Original Abstract

VLMs have become increasingly proficient at a range of computer vision tasks, such as visual question answering and object detection. This includes increasingly strong capabilities in the domain of art, from analyzing artwork to generation of art. In an interdisciplinary collaboration between computer scientists and art historians, we characterize the mechanisms underlying VLMs' ability to predict artistic style and assess the extent to which they align with the criteria art historians use to reason about artistic style. We employ a latent-space decomposition approach to identify concepts that drive art style prediction and conduct quantitative evaluations, causal analysis and assessment by art historians. Our findings indicate that 73% of the extracted concepts are judged by art historians to exhibit a coherent and semantically meaningful visual feature and 90% of concepts used to predict style of a given artwork were judged relevant. In cases where an irrelevant concept was used to successfully predict style, art historians identified possible reasons for its success; for example, the model might "understand" a concept in more formal terms, such as dark/light contrasts.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!