교실 기말 시험: 강사가 검증한 추론 벤치마크
Classroom Final Exam: An Instructor-Tested Reasoning Benchmark
본 논문에서는 대규모 언어 모델의 추론 능력을 20개 이상의 STEM 분야에 걸쳐 평가하기 위한 다중 모드 벤치마크인 쿫ern{} ( extbf{C}lassroom extbf{F}inal extbf{E}xam)을 소개합니다. 쿫ern{}은 대학에서 반복적으로 사용되는 실제 과제 및 시험 문제들을 기반으로 구축되었으며, 강사가 제공한 참고 해답과 함께 제공됩니다. 쿫ern{}은 최첨단 모델에게도 상당한 난제를 제시합니다. 최근 출시된 Gemini-3.1-pro-preview 모델은 전체 정확도가 59.69%에 불과하며, 두 번째로 높은 성능을 보이는 Gemini-3-flash-preview 모델은 55.46%의 정확도를 기록하며, 개선의 여지가 많습니다. 벤치마크 결과 외에도, 우리는 참고 해답을 추론 흐름으로 분해하여 진단 분석을 수행했습니다. 분석 결과, 최첨단 모델은 종종 중간 질문에 대해 올바르게 답변할 수 있지만, 다단계 해결 과정에서 올바른 중간 상태를 안정적으로 도출하고 유지하는 데 어려움을 겪는 것으로 나타났습니다. 또한, 모델이 생성한 해법은 일반적으로 강사가 제공하는 해법보다 추론 단계가 더 많아, 비효율적인 단계 구성과 오류 누적의 위험이 더 높음을 확인했습니다. 데이터 및 코드는 https://github.com/Analogy-AI/CFE_Bench 에서 확인할 수 있습니다.
We introduce \CFE{} (\textbf{C}lassroom \textbf{F}inal \textbf{E}xam), a multimodal benchmark for evaluating the reasoning capabilities of large language models across more than 20 STEM domains. \CFE{} is curated from repeatedly used, authentic university homework and exam problems, together with reference solutions provided by course instructors. \CFE{} presents a significant challenge even for frontier models: the newly released Gemini-3.1-pro-preview achieves an overall accuracy of 59.69\%, while the second-best model, Gemini-3-flash-preview, reaches 55.46\%, leaving considerable room for improvement. Beyond leaderboard results, we perform a diagnostic analysis by decomposing reference solutions into reasoning flows. We find that although frontier models can often answer intermediate sub-questions correctly, they struggle to reliably derive and maintain correct intermediate states throughout multi-step solutions. We further observe that model-generated solutions typically have more reasoning steps than those provided by the instructor, indicating suboptimal step efficiency and a higher risk of error accumulation. The data and code are available at https://github.com/Analogy-AI/CFE_Bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.