CharTool: 도구 통합 시각적 추론을 통한 차트 이해
CharTool: Tool-Integrated Visual Reasoning for Chart Understanding
차트는 과학 및 금융 문헌에서 구조화된 데이터를 제시하는 데 널리 사용됩니다. 그러나 차트 추론은 고품질 훈련 데이터 부족, 세밀한 시각적 분석 및 정확한 수치 계산의 필요성 때문에 멀티모달 대규모 언어 모델(MLLM)에게 여전히 어려운 과제입니다. 이러한 문제점을 해결하기 위해, 우리는 먼저 합성된 차트와 실제 차트를 결합하여 다양하고 고품질의 차트 훈련 데이터를 구축하는 확장 가능한 이중 소스 데이터 파이프라인인 DuoChart를 제안합니다. 또한, 우리는 MLLM에 이미지 잘라내기 기능을 통한 지역화된 시각적 인식 및 코드 기반 계산을 통한 정확한 수치 추론을 위한 외부 도구를 제공하는 CharTool을 소개합니다. DuoChart를 사용한 에이전트 기반 강화 학습을 통해, CharTool은 차트 내용을 기반으로 한 도구 통합 추론을 학습합니다. 여섯 가지 차트 벤치마크에 대한 광범위한 실험 결과, 우리 방법은 다양한 모델 크기에서 강력한 MLLM 기준 모델보다 일관되게 성능이 향상됨을 보여줍니다. 특히, CharTool-7B는 CharXiv (추론)에서 **+8.0%**의 성능 향상과 ChartQAPro에서 **+9.78%**의 성능 향상을 보여주며, 훨씬 크거나 독점적인 모델과 경쟁력 있는 성능을 달성합니다. 또한, CharTool은 도메인 외부의 시각적 수학 추론 벤치마크에서도 긍정적인 일반화 성능을 보여줍니다.
Charts are ubiquitous in scientific and financial literature for presenting structured data. However, chart reasoning remains challenging for multimodal large language models (MLLMs) due to the lack of high-quality training data, as well as the need for fine-grained visual grounding and precise numerical computation. To address these challenges, we first propose DuoChart, a scalable dual-source data pipeline that combines synthesized charts with real-world charts to construct diverse, high-quality chart training data. We then introduce CharTool, which equips MLLMs with external tools, including image cropping for localized visual perception and code-based computation for accurate numerical reasoning. Through agentic reinforcement learning on DuoChart, CharTool learns tool-integrated reasoning grounded in chart content. Extensive experiments on six chart benchmarks show that our method consistently improves over strong MLLM baselines across model scales. Notably, CharTool-7B outperforms the base model by **+8.0%** on CharXiv (Reasoning) and **+9.78%** on ChartQAPro, while achieving competitive performance with substantially larger or proprietary models. Moreover, CharTool demonstrates positive generalization to out-of-domain visual math reasoning benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.