SciEval: 초등/중등 과학 교육 자료의 자동 평가를 위한 벤치마크
SciEval: A Benchmark for Automatic Evaluation of K-12 Science Instructional Materials
교육자들이 교육 자료를 생성하는 데 생성형 AI를 사용하는 경우가 증가함에 따라, 초등/중등 과학 교육 자료의 평가 필요성이 더욱 중요해지고 있습니다. 그러나 교육 자료 검토는 시간이 오래 걸리고 전문적인 지식이 필요하며, 확장하기 어렵기 때문에 자동화된 평가 방법론에 대한 관심이 높아지고 있습니다. 거대 언어 모델(LLM)은 일반적인 평가 작업에서 뛰어난 성능을 보였지만, 교육 자료에 대한 성능과 신뢰성은 여전히 불분명합니다. 이러한 격차를 해소하기 위해, 우리는 자동 교육 자료 평가(AIME)를 교육자가 설계한 평가 기준을 사용하여 점수와 근거를 예측하는 생성형 AI 작업으로 정의했습니다. 우리는 벤치마크 데이터 세트를 만들고 AIME을 위한 기본 모델을 개발했습니다. 첫째, 우리는 교육학적 관점에 부합하는 평가 점수와 근거 기반 설명을 포함하는 교육 자료로 구성된 첫 번째 AIME 데이터 세트인 SciEval을 구축했습니다. 전문가의 주관적인 평가 결과는 높은 신뢰도를 나타냈으며, EQuIP 평가 기준을 사용하여 273개의 레슨 수준 교육 자료를 13가지 기준으로 평가한 데이터 세트(N=3549)를 생성했습니다. 둘째, 우리는 SciEval에서 GPT, Gemini, Llama, Qwen과 같은 주류 LLM을 테스트한 결과, 어떤 모델도 뛰어난 성능을 보이지 않았습니다. 그런 다음, 우리는 Qwen3을 SciEval에 대해 미세 조정했습니다. 보류된 테스트 세트에 대한 결과는 도메인에 특화된 미세 조정이 최대 11%의 성능 향상을 가져올 수 있음을 보여주며, 이는 AIME에 대한 도메인 특화 미세 조정의 중요성을 강조하고 다른 교육 관련 작업에서 LLM을 활용하는 데 기여합니다.
The need to evaluate instructional materials for K-12 science education has become increasingly important, as more educators use generative AI to create instructional materials. However, the review of instructional materials is time-consuming, expertise-intensive, and difficult to scale, motivating interest in automated evaluation approaches. While large language models (LLMs) have shown strong performance on general evaluation tasks, their performance and reliability on instructional materials remain unclear. To address this gap, we formulate Automatic Instructional Materials Evaluation (AIME) as a generative AI task that predicts scores and evidence using the rubric designed by the educator. We create a benchmark dataset and develop baseline models for AIME. First, we curate the first AIME dataset, SciEval, consisting of instructional materials annotated with pedagogy-aligned evaluation scores and evidence-based rationales. Expert annotations achieve high inter-rater reliability, resulting in a dataset of 273 lesson-level instructional materials evaluated across 13 criteria (N=3549) using the EQuIP rubric. Second, we test mainstream LLMs (GPT, Gemini, Llama, and Qwen) on SciEval and find that none achieve strong performance. Then we fine-tune Qwen3 on SciEval. Results on a held-out test set show that domain-aligned fine-tuning can achieve up to 11 percent performance gains, highlighting the importance of domain-specific fine-tuning for AIME and facilitating the use of LLMs in other educational tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.