2601.10104v1 Jan 15, 2026 cs.CV

MathDoc: 노이즈가 많은 수학 시험지에서 구조화된 정보 추출 및 능동적인 거부 성능 평가

MathDoc: Benchmarking Structured Extraction and Active Refusal on Noisy Mathematics Exam Papers

Mingxuan Wang
Mingxuan Wang
Citations: 21
h-index: 2
Chenyue Zhou
Chenyue Zhou
Citations: 13
h-index: 1
Jiayi Tuo
Jiayi Tuo
Citations: 0
h-index: 0
Shitong Qin
Shitong Qin
Citations: 1
h-index: 1
Wei Dai
Wei Dai
Citations: 23
h-index: 3
Ziwei Zhao
Ziwei Zhao
Citations: 0
h-index: 0
Duoyang Li
Duoyang Li
Citations: 0
h-index: 0
Shiyan Su
Shiyan Su
Citations: 33
h-index: 2
Yanxin Lu
Yanxin Lu
Citations: 230
h-index: 6
Yanbiao Ma
Yanbiao Ma
Citations: 47
h-index: 4

종이 기반 수학 시험에서 구조화된 질문을 자동으로 추출하는 것은 지능형 교육의 기본이지만, 실제 환경에서는 심각한 시각적 노이즈로 인해 여전히 어려운 과제입니다. 기존의 벤치마크는 주로 깨끗한 문서 또는 일반적인 레이아웃 분석에 초점을 맞추고 있으며, 수학 문제의 구조적 완전성과 모델이 불완전한 입력을 능동적으로 거부하는 능력은 간과되었습니다. 본 논문에서는 실제 고등학교 수학 시험지를 대상으로 문서 수준의 정보 추출을 위한 최초의 벤치마크인 MathDoc을 소개합니다. MathDoc은 실제적인 요소가 포함된 3,609개의 신중하게 선별된 질문으로 구성되어 있으며, 모델의 능동적인 거부 행동을 평가하기 위해 인식할 수 없는 샘플을 명시적으로 포함합니다. 우리는 질문의 정확성, 시각적 유사성, 거부 능력을 포괄하는 다차원 평가 프레임워크를 제안합니다. Qwen3-VL 및 Gemini-2.5-Pro를 포함한 최첨단 다중 모드 대형 언어 모델(MLLM)에 대한 실험 결과, end-to-end 모델은 강력한 추출 성능을 달성하지만, 읽을 수 없는 입력에 대해 일관되게 거부하지 못하고, 자신감 있게 잘못된 결과를 생성하는 것으로 나타났습니다. 이러한 결과는 현재 MLLM의 중요한 한계를 보여주며, MathDoc을 열악한 문서 상태에서 모델의 신뢰성을 평가하는 벤치마크로 확립합니다. 저희 프로젝트 저장소는 다음 GitHub 링크에서 확인할 수 있습니다: [https://github.com/winnk123/papers/tree/master](https://github.com/winnk123/papers/tree/master)

Original Abstract

The automated extraction of structured questions from paper-based mathematics exams is fundamental to intelligent education, yet remains challenging in real-world settings due to severe visual noise. Existing benchmarks mainly focus on clean documents or generic layout analysis, overlooking both the structural integrity of mathematical problems and the ability of models to actively reject incomplete inputs. We introduce MathDoc, the first benchmark for document-level information extraction from authentic high school mathematics exam papers. MathDoc contains \textbf{3,609} carefully curated questions with real-world artifacts and explicitly includes unrecognizable samples to evaluate active refusal behavior. We propose a multi-dimensional evaluation framework covering stem accuracy, visual similarity, and refusal capability. Experiments on SOTA MLLMs, including Qwen3-VL and Gemini-2.5-Pro, show that although end-to-end models achieve strong extraction performance, they consistently fail to refuse illegible inputs, instead producing confident but invalid outputs. These results highlight a critical gap in current MLLMs and establish MathDoc as a benchmark for assessing model reliability under degraded document conditions. Our project repository is available at \href{https://github.com/winnk123/papers/tree/master}{GitHub repository}

0 Citations
0 Influential
28.493061443341 Altmetric
142.5 Score
Original PDF
2

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!