AI는 미술사를 연구하는 사람들과 같은 방식으로 볼까요? 비전 언어 모델이 예술적 스타일을 인식하는 방식에 대한 해석
Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style
최근 비전 언어 모델(VLMs)은 시각적 질의 응답 및 객체 감지와 같은 다양한 컴퓨터 비전 작업에서 높은 성능을 보이고 있으며, 예술 분야에서도 작품 분석부터 예술 작품 생성까지 강력한 능력을 보여주고 있습니다. 본 연구는 컴퓨터 과학자와 미술사가의 융합 연구를 통해, VLMs가 예술적 스타일을 예측하는 메커니즘을 분석하고, 이러한 메커니즘이 미술사가들이 예술적 스타일을 이해하는 데 사용하는 기준과 얼마나 일치하는지 평가합니다. 잠재 공간 분해 접근 방식을 사용하여 예술 스타일 예측을 이끄는 개념을 식별하고, 정량적 평가, 인과 분석 및 미술사 전문가의 평가를 수행합니다. 연구 결과, 추출된 개념 중 73%가 미술사 전문가에 의해 일관성 있고 의미 있는 시각적 특징을 나타내는 것으로 판단되었으며, 특정 예술 작품의 스타일을 예측하는 데 사용된 개념의 90%가 관련성이 있다고 평가되었습니다. 관련 없는 개념이 성공적으로 스타일 예측에 사용된 경우, 미술사 전문가들은 그 이유를 파악했는데, 예를 들어 모델이 '어두움/밝음'과 같은 보다 형식적인 용어로 개념을 '이해'했을 수 있습니다.
VLMs have become increasingly proficient at a range of computer vision tasks, such as visual question answering and object detection. This includes increasingly strong capabilities in the domain of art, from analyzing artwork to generation of art. In an interdisciplinary collaboration between computer scientists and art historians, we characterize the mechanisms underlying VLMs' ability to predict artistic style and assess the extent to which they align with the criteria art historians use to reason about artistic style. We employ a latent-space decomposition approach to identify concepts that drive art style prediction and conduct quantitative evaluations, causal analysis and assessment by art historians. Our findings indicate that 73% of the extracted concepts are judged by art historians to exhibit a coherent and semantically meaningful visual feature and 90% of concepts used to predict style of a given artwork were judged relevant. In cases where an irrelevant concept was used to successfully predict style, art historians identified possible reasons for its success; for example, the model might "understand" a concept in more formal terms, such as dark/light contrasts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.