MLLM이 우리와 똑같이 볼까요? 인공지능 시스템에서 시각화 이해 능력 저하의 원인 분석
Do MLLMs See What We See? Analyzing Visualization Literacy Barriers in AI Systems
다중 모드 대규모 언어 모델(MLLM)은 시각 자료 해석에 점점 더 많이 활용되고 있지만, 이러한 모델이 실패하는 이유에 대한 연구는 부족합니다. 본 연구에서는 MLLM에서 시각화 이해 능력 저하를 야기하는 요인에 대한 최초의 체계적인 분석을 제시합니다. 합성 데이터를 활용한 재구성된 시각화 이해 능력 평가 벤치마크(reVLAT)를 사용하여, 인간의 시각화 이해 연구에서 파생된 장애 중심 전략을 적용하여 최첨단 모델 4개에서 발생한 309건의 오류 사례를 분석했습니다. 분석 결과, MLLM의 실패 사례를 분류하는 체계가 도출되었으며, 기존의 인간 참여 기반 프레임워크를 확장하는 두 가지 모델 고유의 장애 요인이 밝혀졌습니다. 연구 결과는 간단한 차트에서는 모델이 좋은 성능을 보이지만, 색상이 풍부하고 세분화된 시각 자료에서는 어려움을 겪으며, 일관된 비교 추론을 형성하는 데 자주 실패한다는 것을 보여줍니다. 본 연구의 결과는 신뢰할 수 있는 AI 기반 시각 자료 지원 시스템의 향후 평가 및 설계에 기여할 것입니다.
Multimodal Large Language Models (MLLMs) are increasingly used to interpret visualizations, yet little is known about why they fail. We present the first systematic analysis of barriers to visualization literacy in MLLMs. Using the regenerated Visualization Literacy Assessment Test (reVLAT) benchmark with synthetic data, we open-coded 309 erroneous responses from four state-of-the-art models with a barrier-centric strategy adapted from human visualization literacy research. Our analysis yields a taxonomy of MLLM failures, revealing two machine-specific barriers that extend prior human-participation frameworks. Results show that models perform well on simple charts but struggle with color-intensive, segment-based visualizations, often failing to form consistent comparative reasoning. Our findings inform future evaluation and design of reliable AI-driven visualization assistants.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.