2604.01754v1 Apr 02, 2026 cs.CL

LiveMathematicianBench: 증명 개요를 활용한 수학자 수준의 추론을 위한 실시간 벤치마크

LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning with Proof Sketches

Jiang Bian
Jiang Bian
Citations: 34
h-index: 3
Linyang He
Linyang He
Citations: 69
h-index: 4
Baohao Liao
Baohao Liao
Citations: 358
h-index: 9
Xinxing Xu
Xinxing Xu
Citations: 13
h-index: 3
Qiyao Yu
Qiyao Yu
Citations: 0
h-index: 0
Hanze Dong
Hanze Dong
Citations: 42
h-index: 4
Micah Goldblum
Micah Goldblum
Citations: 1,541
h-index: 19
N. Mesgarani
N. Mesgarani
Citations: 13,247
h-index: 46

수학적 추론은 인간 지능의 중요한 특징이며, 대규모 언어 모델(LLM)이 의미 있는 수준으로 수학적 추론을 수행할 수 있는지 여부는 인공지능 및 인지과학 분야의 핵심 질문입니다. LLM이 과학적 워크플로우에 점점 더 많이 통합됨에 따라, LLM의 수학적 능력에 대한 엄격한 평가는 실질적인 필요성이 되었습니다. 기존 벤치마크는 합성 환경 및 데이터 오염 문제에 제한됩니다. 본 연구에서는 모델 학습 종료 시점 이후에 발표된 최신 arXiv 논문을 기반으로 구축된, 연구 수준의 수학적 추론을 위한 동적 다중 선택 벤치마크인 LiveMathematicianBench를 소개합니다. 새로 발표된 정리를 기반으로 평가함으로써, LiveMathematicianBench는 단순히 기억된 패턴을 벗어난 현실적인 테스트 환경을 제공합니다. 이 벤치마크는 정렬 유형의 13가지 논리적 분류 체계를 도입하여 (예: 함축, 동치, 존재, 유일성), 다양한 추론 형태에 대한 세분화된 평가를 가능하게 합니다. 또한, 고수준의 증명 전략을 사용하여 타당하지 않지만 그럴듯한 오답 선택지를 생성하는 증명 개요 기반의 오답 생성 파이프라인을 사용합니다. 이를 통해 표면적인 일치보다 진정한 이해도를 평가하는 데 더욱 민감하게 반응합니다. 또한, 정답 인식을 실질적인 추론으로부터 구별하기 위한 대체 불가능(substitution-resistant) 메커니즘을 도입했습니다. 평가 결과, LiveMathematicianBench는 아직 충분히 활용되지 않았음을 보여줍니다. 가장 높은 성능을 보이는 모델인 Gemini-3.1-pro-preview는 43.5%의 정확도를 기록했습니다. 대체 불가능한 평가에서는 GPT-5.4가 30.6%의 최고 정확도를 기록했으며, Gemini-3.1-pro-preview는 17.6%로 떨어져 20%의 무작위 기준선보다 낮았습니다. 이중 모드 프로토콜을 통해, 증명 개요 접근이 일관된 정확도 향상을 가져옴을 알 수 있었으며, 이는 모델이 추론을 위해 고수준의 증명 전략을 활용할 수 있음을 시사합니다. 전반적으로, LiveMathematicianBench는 LLM에서 연구 수준의 수학적 추론을 연구하기 위한 확장 가능하고 오염 저항적인 테스트 환경을 제공합니다.

Original Abstract

Mathematical reasoning is a hallmark of human intelligence, and whether large language models (LLMs) can meaningfully perform it remains a central question in artificial intelligence and cognitive science. As LLMs are increasingly integrated into scientific workflows, rigorous evaluation of their mathematical capabilities becomes a practical necessity. Existing benchmarks are limited by synthetic settings and data contamination. We present LiveMathematicianBench, a dynamic multiple-choice benchmark for research-level mathematical reasoning built from recent arXiv papers published after model training cutoffs. By grounding evaluation in newly published theorems, it provides a realistic testbed beyond memorized patterns. The benchmark introduces a thirteen-category logical taxonomy of theorem types (e.g., implication, equivalence, existence, uniqueness), enabling fine-grained evaluation across reasoning forms. It employs a proof-sketch-guided distractor pipeline that uses high-level proof strategies to construct plausible but invalid answer choices reflecting misleading proof directions, increasing sensitivity to genuine understanding over surface-level matching. We also introduce a substitution-resistant mechanism to distinguish answer recognition from substantive reasoning. Evaluation shows the benchmark is far from saturated: Gemini-3.1-pro-preview, the best model, achieves only 43.5%. Under substitution-resistant evaluation, accuracy drops sharply: GPT-5.4 scores highest at 30.6%, while Gemini-3.1-pro-preview falls to 17.6%, below the 20% random baseline. A dual-mode protocol reveals that proof-sketch access yields consistent accuracy gains, suggesting models can leverage high-level proof strategies for reasoning. Overall, LiveMathematicianBench offers a scalable, contamination-resistant testbed for studying research-level mathematical reasoning in LLMs.

0 Citations
0 Influential
23 Altmetric
115.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!