MathNet: 수학적 추론 및 검색을 위한 글로벌 멀티모달 벤치마크
MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval
수학 문제 해결은 대규모 언어 모델 및 멀티모달 모델의 추론 능력을 시험하는 어려운 과제이지만, 기존 벤치마크는 크기, 언어 지원 범위 및 작업 다양성 측면에서 제한적입니다. 본 논문에서는 MathNet을 소개합니다. MathNet은 고품질의 대규모 멀티모달 및 다국어 데이터셋으로, 올림피아드 수준의 수학 문제들을 포함하며, 생성 모델의 수학적 추론 능력과 임베딩 기반 시스템의 수학적 검색 능력을 평가하기 위한 벤치마크를 제공합니다. MathNet은 47개 국가, 17개 언어 및 20년 동안의 경쟁 결과를 포함하며, 다양한 분야에 걸쳐 30,676개의 전문가가 작성한 문제와 해답으로 구성되어 있습니다. 핵심 데이터셋 외에도, MathNet은 수학적으로 동일하고 구조적으로 유사한 문제 쌍으로 구성된 검색 벤치마크를 구축했습니다. MathNet은 세 가지 작업을 지원합니다. (i) 문제 해결, (ii) 수학적 검색, (iii) 검색 증강 문제 해결. 실험 결과에 따르면, 최첨단 추론 모델조차도 여전히 어려움을 겪고 있으며 (Gemini-3.1-Pro의 경우 78.4%, GPT-5의 경우 69.3%), 임베딩 모델은 동일한 문제를 검색하는 데 어려움을 겪습니다. 또한, 검색 증강 생성 성능은 검색 품질에 매우 민감하며, 예를 들어 DeepSeek-V3.2-Speciale는 검색 품질 향상을 통해 최대 12%의 성능 향상을 보이며 벤치마크에서 최고 점수를 기록했습니다. MathNet은 가장 큰 고품질 올림피아드 데이터셋을 제공하며, 수학적 문제 검색 능력을 평가하기 위한 첫 번째 벤치마크를 제공합니다. 데이터셋과 벤치마크는 https://mathnet.mit.edu 에서 공개적으로 이용할 수 있습니다.
Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.