2603.12249v1 Mar 12, 2026 cs.CL

SciMDR: 과학적 다중 모드 문서 추론 벤치마킹 및 발전

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Manasi S. Patwardhan
Manasi S. Patwardhan
Citations: 285
h-index: 9
Yilun Zhao
Yilun Zhao
Citations: 5
h-index: 1
Chengye Wang
Chengye Wang
Citations: 101
h-index: 4
Rilyn Han
Rilyn Han
Citations: 405
h-index: 2
Arman Cohan
Arman Cohan
Citations: 15
h-index: 2
Ziyu Chen
Ziyu Chen
Citations: 1
h-index: 1

기초 모델 학습을 위한 과학적 다중 모드 문서 추론 데이터셋을 구축하는 것은 규모, 충실성 및 현실성 간의 고유한 균형을 요구합니다. 이러한 과제를 해결하기 위해, 우리는 '합성 및 재정렬 프레임워크'라는 2단계 파이프라인을 소개합니다. 이 프레임워크는 (1) '주장 중심 질의응답 합성', 즉 충실하고 독립적인 질의응답 쌍을 생성하고 특정 영역에 대한 추론을 수행하며, (2) '문서 전체 재정렬', 즉 이러한 쌍을 프로그래밍 방식으로 전체 문서 작업에 재포함하여 현실적인 복잡성을 보장합니다. 이 프레임워크를 사용하여, 우리는 20,000개의 과학 논문에 걸쳐 30만 개의 질의응답 쌍과 명시적인 추론 체인을 포함하는 대규모 학습 데이터셋인 SciMDR을 구축했습니다. 또한, 우리는 전문가가 주석을 달아 다중 모드 이해 능력을 평가하기 위한 벤치마크인 SciMDR-Eval을 구축했습니다. 실험 결과, SciMDR을 사용하여 미세 조정된 모델은 여러 과학 질의응답 벤치마크에서 상당한 성능 향상을 보였으며, 특히 복잡한 문서 수준 추론이 필요한 작업에서 두드러졌습니다.

Original Abstract

Constructing scientific multimodal document reasoning datasets for foundation model training involves an inherent trade-off among scale, faithfulness, and realism. To address this challenge, we introduce the synthesize-and-reground framework, a two-stage pipeline comprising: (1) Claim-Centric QA Synthesis, which generates faithful, isolated QA pairs and reasoning on focused segments, and (2) Document-Scale Regrounding, which programmatically re-embeds these pairs into full-document tasks to ensure realistic complexity. Using this framework, we construct SciMDR, a large-scale training dataset for cross-modal comprehension, comprising 300K QA pairs with explicit reasoning chains across 20K scientific papers. We further construct SciMDR-Eval, an expert-annotated benchmark to evaluate multimodal comprehension within full-length scientific workflows. Experiments demonstrate that models fine-tuned on SciMDR achieve significant improvements across multiple scientific QA benchmarks, particularly in those tasks requiring complex document-level reasoning.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!