LLM은 잘못된 학생들의 사고 과정을 모델링할 수 있는가? 오답 선택지 생성에 대한 사례 연구
Can LLMs Model Incorrect Student Reasoning? A Case Study on Distractor Generation
교육 분야의 인공지능에서 학생들의 오개념을 모델링하는 것은 매우 중요합니다. 본 연구에서는 대규모 언어 모델(LLM)이 다지선다 문제의 오답 선택지를 생성할 때 오개념에 대해 어떻게 추론하는지를 조사합니다. 이 작업은 문제 해결 지식을 활용하고, 학생들의 오개념을 시뮬레이션하며, 타당성을 평가하는 과정을 포함합니다. 우리는 최첨단 LLM이 사용하는 전략을 분석하기 위한 분류 체계를 제시하고, 그들의 추론 과정을 검토하며, 학습 과학 분야의 확립된 모범 사례와 비교합니다. 구조화된 분석 결과, LLM의 과정과 모범 사례 사이에 놀라운 일치성이 나타났습니다. 모델은 일반적으로 먼저 문제를 올바르게 해결한 다음, 잠재적인 오개념을 설명하고 시뮬레이션한 후, 오답 선택지 세트를 선택합니다. 오류 발생 원인 분석 결과, 오류는 주로 올바른 해결책을 복구하는 데 실패하거나 응답 후보 중에서 선택하는 데 실패할 때 발생하며, 오류를 시뮬레이션하거나 프로세스를 구조화하는 데는 잘 발생하지 않습니다. 이러한 결과와 일관되게, 프롬프트에 올바른 해결책을 제공하면 인간이 작성한 오답 선택지와의 일치성이 8% 향상되는 것으로 나타났습니다. 이는 타당한 오개념 학생 사고 과정을 생성할 때 올바른 해결책에 기반하는 것이 얼마나 중요한지를 강조합니다. 전반적으로, 본 연구는 LLM이 잘못된 학생 사고 과정을 모델링하고 고품질의 오답 선택지를 생성하는 능력에 대한 구조화되고 해석 가능한 분석 결과를 제공합니다.
Modeling plausible student misconceptions is critical for AI in education. In this work, we examine how large language models (LLMs) reason about misconceptions when generating multiple-choice distractors, a task that requires modeling incorrect yet plausible answers by coordinating solution knowledge, simulating student misconceptions, and evaluating plausibility. We introduce a taxonomy for analyzing the strategies used by state-of-the-art LLMs, examining their reasoning procedures and comparing them to established best practices in the learning sciences. Our structured analysis reveals a surprising alignment between their processes and best practices: the models typically solve the problem correctly first, then articulate and simulate multiple potential misconceptions, and finally select a set of distractors. An analysis of failure modes reveals that errors arise primarily from failures in recovering the correct solution and selecting among response candidates, rather than simulating errors or structuring the process. Consistent with these results, we find that providing the correct solution in the prompt improves alignment with human-authored distractors by 8%, highlighting the critical role of anchoring to the correct solution when generating plausible incorrect student reasoning. Overall, our analysis offers a structured and interpretable lens into LLMs' ability to model incorrect student reasoning and produce high-quality distractors.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.