2601.21225v1 Jan 29, 2026 cs.CL

MGSM-Pro: 강력한 다국어 수학적 추론 평가를 위한 간단한 전략

MGSM-Pro: A Simple Strategy for Robust Multilingual Mathematical Reasoning Evaluation

D. I. Adelani
D. I. Adelani
Citations: 11
h-index: 2
Tianyi Xu
Tianyi Xu
Citations: 2
h-index: 1
Kosei Uemura
Kosei Uemura
Citations: 7
h-index: 1
A. Kondoro
A. Kondoro
Citations: 9
h-index: 2
Tadesse Destaw Belay
Tadesse Destaw Belay
Wollo University
Citations: 350
h-index: 10
Catherine Nana Nyaah Essuman
Catherine Nana Nyaah Essuman
Citations: 0
h-index: 0
Ifeoma Okoh
Ifeoma Okoh
Citations: 273
h-index: 3
Ganiyat Afolabi
Ganiyat Afolabi
Citations: 0
h-index: 0
Ayodele Awokoya
Ayodele Awokoya
Citations: 763
h-index: 5

대규모 언어 모델은 수학적 추론 분야에서 상당한 발전을 이루었습니다. 그러나 다국어 평가를 위한 벤치마크 개발은 영어에 비해 난이도와 최신성 측면에서 뒤쳐지고 있습니다. 최근, GSM-Symbolic은 동일한 질문의 다양한 변형에 대해 모델을 평가할 때 높은 변동성을 보이는 강력한 증거를 보여주었지만, 평가는 영어로만 수행되었습니다. 본 논문에서는 GSM-Symbolic 접근 방식을 확장한 MGSM-Pro 데이터셋을 소개합니다. 당사의 데이터셋은 MGSM 질문당 다섯 가지 변형을 제공하며, 이름, 숫자, 관련 없는 문맥을 변경하여 다양성을 확보합니다. 9개 언어에 대한 평가 결과, 많은 저자원 언어는 원본 테스트 세트에 있는 것과 다른 숫자 변형으로 테스트될 때 성능이 크게 저하되는 것으로 나타났습니다. 또한, 일부 독점 모델(특히 Gemini 2.5 Flash 및 GPT-4.1)은 숫자 변형에 덜 강건한 반면, Claude 4.0 Sonnet은 더 강건한 것으로 확인되었습니다. 공개 모델 중에서 GPT-OSS 120B와 DeepSeek V3는 더 강한 강건성을 보였습니다. 이러한 결과를 바탕으로, 수학적 추론을 보다 정확하고 현실적으로 평가하기 위해서는 각 문제를 최소 다섯 가지의 숫자 변형을 사용하여 평가하는 것을 권장합니다.

Original Abstract

Large language models have made substantial progress in mathematical reasoning. However, benchmark development for multilingual evaluation has lagged behind English in both difficulty and recency. Recently, GSM-Symbolic showed a strong evidence of high variance when models are evaluated on different instantiations of the same question; however, the evaluation was conducted only in English. In this paper, we introduce MGSM-Pro, an extension of MGSM dataset with GSM-Symbolic approach. Our dataset provides five instantiations per MGSM question by varying names, digits and irrelevant context. Evaluations across nine languages reveal that many low-resource languages suffer large performance drops when tested on digit instantiations different from those in the original test set. We further find that some proprietary models, notably Gemini 2.5 Flash and GPT-4.1, are less robust to digit instantiation, whereas Claude 4.0 Sonnet is more robust. Among open models, GPT-OSS 120B and DeepSeek V3 show stronger robustness. Based on these findings, we recommend evaluating each problem using at least five digit-varying instantiations to obtain a more robust and realistic assessment of math reasoning.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!