대규모 언어 모델의 수학 문제 해결 능력은 평가 수행 능력과 관련이 있는가?
Is Mathematical Problem-Solving Expertise in Large Language Models Associated with Assessment Performance?
대규모 언어 모델(LLM)은 수학 교육에서 문제 해결 도구로서뿐만 아니라 학습자의 추론 능력을 평가하는 도구로도 점점 더 많이 사용되고 있습니다. 그러나, 더 뛰어난 수학 문제 해결 능력이 더 높은 수준의 평가 수행 능력과 관련이 있는지 여부는 아직 명확하지 않습니다. 본 연구는 인간이 주석을 달아 수학적 추론 과정에서 가장 초기에 발생하는 오류를 식별하는 벤치마크인 PROCESSBENCH의 GSM8K 및 MATH 데이터셋을 사용하여 이러한 관계를 분석합니다. GPT-4 및 GPT-5를 기반으로 한 두 가지 LLM 기반 수학 튜터 에이전트를 평가하며, 동일한 수학 문제에 대해 두 가지 독립적인 작업을 수행합니다. 첫째, 원래 문제를 해결하고, 둘째, 벤치마크에서 제공하는 솔루션의 가장 초기에 발생하는 오류 단계를 예측하여 평가합니다. 결과는 모델 내에서 일관된 패턴을 보여줍니다. 즉, 동일한 모델이 올바르게 해결한 수학 문제에 대한 평가 정확도가 모델이 잘못 해결한 문제에 대한 평가 정확도보다 훨씬 높으며, 두 모델과 데이터셋 모두에서 통계적으로 유의미한 상관 관계가 나타났습니다. 동시에, 평가 작업은 여전히 직접적인 문제 해결보다 어렵습니다. 특히 오류가 포함된 솔루션을 평가하는 것이 더욱 어렵습니다. 이러한 결과는 수학 문제 해결 능력이 더 강력한 평가 수행 능력을 뒷받침한다는 것을 시사합니다. 그러나 신뢰할 수 있는 단계별 진단을 위해서는 단계 추적, 모니터링 및 정확한 오류 위치 추정과 같은 추가적인 기능이 필요합니다. 이러한 결과는 수학 교육에서의 형성 평가를 위한 AI 기반 적응형 학습 시스템(AIS)의 설계 및 평가에 중요한 시사점을 제공합니다.
Large Language Models (LLMs) are increasingly used in math education not only as problem solvers but also as assessors of learners' reasoning. However, it remains unclear whether stronger math problem-solving ability is associated with stronger step-level assessment performance. This study examines that relationship using the GSM8K and MATH subsets of PROCESSBENCH, a human-annotated benchmark for identifying the earliest erroneous step in mathematical reasoning. We evaluate two LLM-based math tutor agent settings, instantiated with GPT-4 and GPT-5, in two independent tasks on the same math problems: solving the original problem and assessing a benchmark-provided solution by predicting the earliest erroneous step. Results show a consistent within-model pattern: assessment accuracy is substantially higher on math problem items the same model solved correctly than on items it solved incorrectly, with statistically significant associations across both models and datasets. At the same time, assessment remains more difficult than direct problem solving, especially on error-present solutions. These findings suggest that math problem-solving expertise supports stronger assessment performance, but reliable step-level diagnosis also requires additional capabilities such as step tracking, monitoring, and precise error localization. The results have implications for the design and evaluation of AI-supported Adaptive Instructional Systems (AISs) for formative assessment in math education.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.