추상적 문제에서 맥락적 문제로: LLM이 수학에서 여전히 해결하지 못하는 것
From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics
대규모 언어 모델은 이제 많은 벤치마크 수학 문제를 거의 전문가 수준으로 해결하지만, 이러한 발전이 실제 응용 분야에서의 신뢰할 수 있는 성능으로 완전히 이어지지는 않았습니다. 우리는 수학적 핵심 내용을 서술형 시나리오로부터 정식화해야 하는 '맥락적 수학 추론(contextual mathematical reasoning)'을 통해 이러한 격차를 연구합니다. 우리는 AIME와 MATH-500 문제를 두 가지 맥락적 설정으로 재구성한 벤치마크인 ContextMATH를 소개합니다. 이는 추론 복잡도를 높이지 않고 추상적인 문제를 현실적인 서사 속에 내장하는 '시나리오 그라운딩(SG)'과, 실제 상황에서 제약 조건이 나타나는 방식을 포착하기 위해 명시적인 조건을 하위 문제로 변환하는 '복잡도 스케일링(CS)'으로 구성됩니다. 61개의 상용 및 오픈 소스 모델을 평가한 결과 급격한 성능 하락이 관찰되었습니다. 평균적으로 오픈 소스 모델은 SG와 CS에서 각각 13점과 34점 하락했고, 상용 모델은 13점과 20점 하락했습니다. 오류 분석에 따르면 주된 오류 원인은 부정확한 문제 정식화였으며, 원본 문제의 난이도가 높아질수록 정식화 정확도가 감소하는 것으로 나타났습니다. 올바른 정식화는 문제 해결의 전제 조건임이 드러났으며, 모델의 규모가 커질수록 정식화만으로 문제를 해결할 수 있는 충분조건이 개선되었는데, 이는 더 큰 모델일수록 이해력과 추론 능력 모두에서 발전한다는 것을 시사합니다. 그럼에도 불구하고 정식화와 추론은 여전히 맥락적 수학 문제 해결을 제한하는 상호 보완적인 두 가지 병목 요인으로 남아 있습니다. 마지막으로, 시나리오 데이터로 미세 조정(fine-tuning)을 하면 성능이 향상되지만, 정식화 훈련만으로는 효과가 없다는 것을 발견했습니다. 그러나 성능 격차는 부분적으로만 완화되었으며, 이는 맥락적 수학 추론이 LLM에게 여전히 해결되지 않은 핵심적인 과제임을 강조합니다.
Large language models now solve many benchmark math problems at near-expert levels, yet this progress has not fully translated into reliable performance in real-world applications. We study this gap through contextual mathematical reasoning, where the mathematical core must be formulated from descriptive scenarios. We introduce ContextMATH, a benchmark that repurposes AIME and MATH-500 problems into two contextual settings: Scenario Grounding (SG), which embeds abstract problems into realistic narratives without increasing reasoning complexity, and Complexity Scaling (CS), which transforms explicit conditions into sub-problems to capture how constraints often appear in practice. Evaluating 61 proprietary and open-source models, we observe sharp drops: on average, open-source models decline by 13 and 34 points on SG and CS, while proprietary models drop by 13 and 20. Error analysis shows that errors are dominated by incorrect problem formulation, with formulation accuracy declining as original problem difficulty increases. Correct formulation emerges as a prerequisite for success, and its sufficiency improves with model scale, indicating that larger models advance in both understanding and reasoning. Nevertheless, formulation and reasoning remain two complementary bottlenecks that limit contextual mathematical problem solving. Finally, we find that fine-tuning with scenario data improves performance, whereas formulation-only training is ineffective. However, performance gaps are only partially alleviated, highlighting contextual mathematical reasoning as a central unsolved challenge for LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.