SpecVQA: 과학 이미지에서 분광 이해 및 시각 질의 응답을 위한 벤치마크
SpecVQA: A Benchmark for Spectral Understanding and Visual Question Answering in Scientific Images
스펙트럼은 과학 이미지의 중요한 형태이지만, 비정형적이고 특정 분야에 특화된 특성으로 인해 멀티모달 대규모 언어 모델(MLLM)에게 상당한 어려움을 제시합니다. 본 연구에서는 과학적 스펙트럼 이해 능력을 평가하기 위한 전문적인 과학 이미지 벤치마크인 SpecVQA를 소개합니다. SpecVQA는 전문가가 작성한 질문-답변 쌍으로 구성된 7가지 대표적인 스펙트럼 유형을 포함하며, 스펙트럼 과학 QA 평가와 관련된 기본 작업 평가라는 두 가지 목표를 가지고 있습니다. SpecVQA는 동료 심사를 거친 문헌에서 추출한 620개의 이미지와 3100개의 질문-답변 쌍으로 구성되어 있으며, 직접적인 정보 추출과 분야별 추론을 모두 목표로 합니다. 스펙트럼 데이터의 필수적인 특징을 유지하면서 토큰 길이를 효과적으로 줄이기 위해, 스펙트럼 데이터 샘플링 및 보간 재구성 방법을 제안합니다. 추가 실험을 통해 제안된 방법이 벤치마크에서 상당한 성능 향상을 가져옴을 확인했습니다. 본 연구에서는 과학적 스펙트럼 이해 능력을 가진 대표적인 MLLM을 SpecVQA 벤치마크를 사용하여 테스트하고, 그 결과를 리더보드 형태로 제공합니다. 본 연구는 멀티모달 대규모 모델의 스펙트럼 이해 능력을 향상시키는 데 중요한 단계이며, 시각-언어 모델을 더 광범위한 과학 연구 및 데이터 분석으로 확장하기 위한 유망한 방향을 제시합니다.
Spectra are a prevalent yet highly information-dense form of scientific imagery, presenting substantial challenges to multimodal large language models (MLLMs) due to their unstructured and domain-specific characteristics. Here we introduce SpecVQA, a professional scientific-image benchmark for evaluating multimodal models on scientific spectral understanding, covering 7 representative spectrum types with expert-annotated question-answer pairs. The aim comprises two aspects: spectra scientific QA evaluation and corresponding underlying task evaluation. SpecVQA contains 620 figures and 3100 QA pairs curated from peer-reviewed literature, targeting both direct information extraction and domain-specific reasoning. To effectively reduce token length while preserving essential curve characteristics, we propose a spectral data sampling and interpolation reconstruction approach. Ablation studies further confirm that the approach achieves substantial performance improvements on the proposed benchmark. We test the capability of prominent MLLMs in scientific spectral understanding on our benchmark and present a leaderboard. This work represents an essential step toward enhancing spectral understanding in multimodal large models and suggests promising directions for extending visual-language models to broader scientific research and data analysis.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.