2604.18584v1 Apr 20, 2026 cs.AI

MathNet: 수학적 추론 및 검색을 위한 글로벌 멀티모달 벤치마크

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Antonio Torralba
Antonio Torralba
Citations: 73
h-index: 4
William T. Freeman
William T. Freeman
Citations: 62
h-index: 3
Shaden Alshammari
Shaden Alshammari
Citations: 280
h-index: 3
K. Wen
K. Wen
Citations: 2
h-index: 1
Abrar Zainal
Abrar Zainal
Citations: 2
h-index: 1
Mark Hamilton
Mark Hamilton
Citations: 8
h-index: 2
Navid Safaei
Navid Safaei
Citations: 5
h-index: 2
Sultan Albarakati
Sultan Albarakati
Citations: 49
h-index: 5

수학 문제 해결은 대규모 언어 모델 및 멀티모달 모델의 추론 능력을 시험하는 어려운 과제이지만, 기존 벤치마크는 크기, 언어 지원 범위 및 작업 다양성 측면에서 제한적입니다. 본 논문에서는 MathNet을 소개합니다. MathNet은 고품질의 대규모 멀티모달 및 다국어 데이터셋으로, 올림피아드 수준의 수학 문제들을 포함하며, 생성 모델의 수학적 추론 능력과 임베딩 기반 시스템의 수학적 검색 능력을 평가하기 위한 벤치마크를 제공합니다. MathNet은 47개 국가, 17개 언어 및 20년 동안의 경쟁 결과를 포함하며, 다양한 분야에 걸쳐 30,676개의 전문가가 작성한 문제와 해답으로 구성되어 있습니다. 핵심 데이터셋 외에도, MathNet은 수학적으로 동일하고 구조적으로 유사한 문제 쌍으로 구성된 검색 벤치마크를 구축했습니다. MathNet은 세 가지 작업을 지원합니다. (i) 문제 해결, (ii) 수학적 검색, (iii) 검색 증강 문제 해결. 실험 결과에 따르면, 최첨단 추론 모델조차도 여전히 어려움을 겪고 있으며 (Gemini-3.1-Pro의 경우 78.4%, GPT-5의 경우 69.3%), 임베딩 모델은 동일한 문제를 검색하는 데 어려움을 겪습니다. 또한, 검색 증강 생성 성능은 검색 품질에 매우 민감하며, 예를 들어 DeepSeek-V3.2-Speciale는 검색 품질 향상을 통해 최대 12%의 성능 향상을 보이며 벤치마크에서 최고 점수를 기록했습니다. MathNet은 가장 큰 고품질 올림피아드 데이터셋을 제공하며, 수학적 문제 검색 능력을 평가하기 위한 첫 번째 벤치마크를 제공합니다. 데이터셋과 벤치마크는 https://mathnet.mit.edu 에서 공개적으로 이용할 수 있습니다.

Original Abstract

Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.

2 Citations
0 Influential
2.5 Altmetric
14.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!