ChartNet: 견고한 차트 이해를 위한 백만 규모의 고품질 멀티모달 데이터셋
ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding
차트를 이해하려면 모델이 기하학적 시각 패턴, 구조화된 숫자 데이터 및 자연어의 상호 연관성을 파악해야 합니다. 그러나 현재의 비전-언어 모델(VLM)은 이러한 능력이 부족합니다. 본 논문에서는 차트 해석 및 추론 능력을 향상시키기 위해 설계된 고품질의 백만 규모 멀티모달 데이터셋인 ChartNet을 소개합니다. ChartNet은 24가지 차트 유형과 6개의 플롯 라이브러리를 포괄하는 150만 개의 다양한 차트 샘플을 생성하기 위해 새로운 코드 기반 합성 파이프라인을 활용합니다. 각 샘플은 플롯 코드, 렌더링된 차트 이미지, 데이터 테이블, 자연어 요약 및 추론이 포함된 질의응답의 5가지 정렬된 구성 요소로 구성되어 있으며, 이는 세밀한 교차 모달 정렬을 제공합니다. ChartNet은 차트 이해의 전체 스펙트럼을 포착하기 위해 인간이 주석을 달고 실제 데이터를 포함하는 전문 하위 집합, 안전성 및 근거 데이터도 포함합니다. 또한 엄격한 품질 필터링 파이프라인은 시각적 충실도, 의미 정확성 및 다양한 차트 표현을 보장합니다. ChartNet을 사용하여 미세 조정을 수행하면 벤치마크에서 일관되게 성능이 향상되며, 이는 멀티모달 모델에 대한 대규모 감독 학습 자료로서의 유용성을 입증합니다. ChartNet은 이와 유사한 가장 큰 공개 데이터셋으로서, 데이터 시각화 이해를 위한 강력하고 일반화된 기능을 갖춘 기초 모델 개발을 지원하는 것을 목표로 합니다. 데이터셋은 다음 URL에서 공개적으로 이용 가능합니다: https://huggingface.co/datasets/ibm-granite/ChartNet
Understanding charts requires models to jointly reason over geometric visual patterns, structured numerical data, and natural language -- a capability where current vision-language models (VLMs) remain limited. We introduce ChartNet, a high-quality, million-scale multimodal dataset designed to advance chart interpretation and reasoning. ChartNet leverages a novel code-guided synthesis pipeline to generate 1.5 million diverse chart samples spanning 24 chart types and 6 plotting libraries. Each sample consists of five aligned components: plotting code, rendered chart image, data table, natural language summary, and question-answering with reasoning, providing fine-grained cross-modal alignment. To capture the full spectrum of chart comprehension, ChartNet additionally includes specialized subsets encompassing human annotated data, real-world data, safety, and grounding. Moreover, a rigorous quality-filtering pipeline ensures visual fidelity, semantic accuracy, and diversity across chart representations. Fine-tuning on ChartNet consistently improves results across benchmarks, demonstrating its utility as large-scale supervision for multimodal models. As the largest open-source dataset of its kind, ChartNet aims to support the development of foundation models with robust and generalizable capabilities for data visualization understanding. The dataset is publicly available at https://huggingface.co/datasets/ibm-granite/ChartNet
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.