누락된 평가 축: 1만 건의 학생 제출물이 AI 튜터의 효과성에 대해 밝혀주는 것
The Missing Evaluation Axis: What 10,000 Student Submissions Reveal About AI Tutor Effectiveness
현재 인공지능(AI) 기반 튜터링 시스템(AI 튜터)은 주로 피드백 메시지의 교육적 품질을 기준으로 평가됩니다. 교육적 품질은 중요하지만, 학생이 받은 피드백을 실제로 어떻게 활용하는지에 대한 중요한 질문을 간과하기 때문에 충분하지 않습니다. 우리는 AI 튜터 평가가 학생의 상호 작용 데이터를 기반으로 한 행동적 측면을 포함해야 하며, 이는 교육적 평가를 보완해야 한다고 주장합니다. 우리는 평가 프레임워크를 제안하고, 이를 사용하여 1만 235건의 코딩 제출물과 해당 AI 튜터 피드백을 분석하여 학생들이 튜터 피드백에 어떻게 반응하는지, 그리고 그 반응이 올바르게 적용되었는지 측정했습니다. 대규모 초급 컴퓨터 과학 과정에서 서로 다른 학기에 배포된 두 개의 AI 튜터를 비교하기 위해 이 프레임워크를 사용한 결과, 교육적 평가만으로는 파악할 수 없는 학생 참여 패턴의 상당한 차이가 나타났습니다. 또한, 이러한 참여 기반의 행동적 신호는 AI 튜터의 교육적 품질만으로는 설명할 수 없는 학생들의 유용성 인식과 더 강한 연관성을 가지며, AI 튜터의 성능에 대한 더 완전하고 실행 가능한 정보를 제공합니다.
Current Artificial Intelligence (AI)-based tutoring systems (AI tutors) are primarily evaluated based on the pedagogical quality of their feedback messages. While important, pedagogy alone is insufficient because it ignores a critical question: what do students actually do with the feedback they receive? We argue that AI tutor evaluation should be extended with a behavioral dimension grounded in student interaction data, which complements pedagogical assessment. We propose an evaluation framework and apply it to 10,235 code submissions with corresponding AI tutor feedback from an introductory undergraduate programming course to measure whether students act on tutor feedback and whether those actions are applied correctly. Using this framework to compare two deployed AI tutors across different semesters in a large-scale introductory computer science course reveals substantial differences in student engagement patterns that are not captured by pedagogy-only evaluation. Moreover, these engagement-based behavioral signals are more strongly associated with student perception of helpful feedback than pedagogical quality alone, providing a more complete and actionable picture of AI tutor performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.