DRAGON: 다이어그램 기반 시각적 추론을 위한 벤치마크
DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams
다이어그램 질의 응답(DQA)은 모델이 차트, 지도, 인포그래픽, 회로도 및 과학 다이어그램과 같은 구조화된 시각적 표현을 해석하도록 요구합니다. 최근의 비전-언어 모델(VLM)은 이러한 작업에서 높은 답변 정확도를 달성하는 경우가 많지만, 정확한 답변이 모델이 예측을 뒷받침하는 다이어그램 영역을 기반으로 추론한다는 것을 보장하지 않습니다. 모델은 시각적 증거를 식별하는 대신 텍스트 상관 관계나 데이터셋의 오류에 의존할 수 있습니다. 이러한 제한 사항은 다이어그램 추론의 신뢰성 있는 평가를 방해하고 해석 가능성을 저하시킵니다. 우리는 다이어그램에서 증거 기반 시각적 추론을 평가하기 위한 벤치마크인 DRAGON을 소개합니다. 주어진 다이어그램, 질문 및 정답에 대해, 모델은 답변을 뒷받침하는 데 필요한 시각적 요소를 나타내는 경계 상자를 예측해야 합니다. 이러한 증거 영역에는 답변과 관련된 구성 요소, 텍스트 레이블, 범례, 축, 연결기 및 추론 과정에 관련된 기타 지원 구조가 포함될 수 있습니다. DRAGON 데이터셋은 ChartQA, Circuit-VQA, InfographicsVQA, MapIQ, MapWise 및 AI2D의 6가지 다이어그램 질의 응답 데이터셋에서 수집된 11,664개의 주석이 달린 질문 인스턴스로 구성됩니다. 우리는 인간이 검증한 추론 증거 주석과 표준화된 평가 프레임워크를 갖춘 2,445개의 인스턴스로 구성된 벤치마크 테스트 세트를 공개합니다. 우리는 8개의 최신 VLM을 평가하고 다양한 다이어그램 도메인에서 추론 증거를 지역화하는 능력에 대한 분석을 제공합니다. DRAGON은 다이어그램 추론의 체계적인 평가를 가능하게 하며, 시각적 증거를 기반으로 예측하는 모델에 대한 미래 연구를 지원합니다.
Diagram question answering (DQA) requires models to interpret structured visual representations such as charts, maps, infographics, circuit schematics, and scientific diagrams. Recent vision-language models (VLMs) often achieve high answer accuracy on these tasks, yet correct answers do not guarantee that models ground their reasoning in the diagram regions that support the prediction. Models may instead rely on textual correlations or dataset artifacts without identifying the visual evidence required to verify the answer. This limitation prevents reliable evaluation of diagram reasoning and reduces interpretability. We introduce DRAGON, a benchmark for evaluating evidence-grounded visual reasoning in diagrams. Given a diagram, a question, and the correct answer, a model must predict bounding boxes that correspond to the visual elements required to justify the answer. These evidence regions may include answer-bearing components, textual labels, legends, axes, connectors, and other supporting structures involved in the reasoning process. The DRAGON dataset contains 11,664 annotated question instances collected from six diagram QA datasets: ChartQA, Circuit-VQA, InfographicsVQA, MapIQ, MapWise, and AI2D. We release a 2,445-instance benchmark test set with human-verified reasoning evidence annotations and a standardized evaluation framework. We evaluate eight recent VLMs and analyze their ability to localize reasoning evidence across diverse diagram domains. DRAGON enables systematic evaluation of diagram reasoning and supports future research on models that ground their predictions in visual evidence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.