SciMDR: 과학적 다중 모드 문서 추론 벤치마킹 및 발전
SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning
기초 모델 학습을 위한 과학적 다중 모드 문서 추론 데이터셋을 구축하는 것은 규모, 충실성 및 현실성 간의 고유한 균형을 요구합니다. 이러한 과제를 해결하기 위해, 우리는 '합성 및 재정렬 프레임워크'라는 2단계 파이프라인을 소개합니다. 이 프레임워크는 (1) '주장 중심 질의응답 합성', 즉 충실하고 독립적인 질의응답 쌍을 생성하고 특정 영역에 대한 추론을 수행하며, (2) '문서 전체 재정렬', 즉 이러한 쌍을 프로그래밍 방식으로 전체 문서 작업에 재포함하여 현실적인 복잡성을 보장합니다. 이 프레임워크를 사용하여, 우리는 20,000개의 과학 논문에 걸쳐 30만 개의 질의응답 쌍과 명시적인 추론 체인을 포함하는 대규모 학습 데이터셋인 SciMDR을 구축했습니다. 또한, 우리는 전문가가 주석을 달아 다중 모드 이해 능력을 평가하기 위한 벤치마크인 SciMDR-Eval을 구축했습니다. 실험 결과, SciMDR을 사용하여 미세 조정된 모델은 여러 과학 질의응답 벤치마크에서 상당한 성능 향상을 보였으며, 특히 복잡한 문서 수준 추론이 필요한 작업에서 두드러졌습니다.
Constructing scientific multimodal document reasoning datasets for foundation model training involves an inherent trade-off among scale, faithfulness, and realism. To address this challenge, we introduce the synthesize-and-reground framework, a two-stage pipeline comprising: (1) Claim-Centric QA Synthesis, which generates faithful, isolated QA pairs and reasoning on focused segments, and (2) Document-Scale Regrounding, which programmatically re-embeds these pairs into full-document tasks to ensure realistic complexity. Using this framework, we construct SciMDR, a large-scale training dataset for cross-modal comprehension, comprising 300K QA pairs with explicit reasoning chains across 20K scientific papers. We further construct SciMDR-Eval, an expert-annotated benchmark to evaluate multimodal comprehension within full-length scientific workflows. Experiments demonstrate that models fine-tuned on SciMDR achieve significant improvements across multiple scientific QA benchmarks, particularly in those tasks requiring complex document-level reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.