등급의 불확실성은 어느 정도인가? LLM 기반 자동 평가를 위한 불확실성 지표 벤치마크
How Uncertain Is the Grade? A Benchmark of Uncertainty Metrics for LLM-Based Automatic Assessment
대규모 언어 모델(LLM)의 급속한 발전은 교육 분야의 자동 평가 방식을 변화시키고 있습니다. 이러한 시스템은 다양한 유형의 질문에 대한 적응성과 출력 형식의 유연성 측면에서 상당한 장점을 보이지만, LLM의 본질적인 확률적 특성으로 인해 발생하는 출력 불확실성과 관련된 새로운 과제도 야기합니다. 출력 불확실성은 자동 평가에서 피할 수 없는 문제입니다. 평가 결과는 학생들에게 피드백을 제공하거나 교육적 의사 결정을 안내하는 등 후속적인 교육 활동에 중요한 역할을 하기 때문입니다. 신뢰할 수 없거나 보정되지 않은 불확실성 추정은 불안정한 후속 조치로 이어져 학생들의 학습 과정을 방해하고 의도하지 않은 부정적인 결과를 초래할 수 있습니다. 이러한 과제를 체계적으로 이해하고 향후 연구를 위한 기반을 마련하기 위해, 우리는 LLM 기반 자동 평가 맥락에서 다양한 불확실성 정량화 방법을 비교 분석합니다. 이러한 방법은 다양한 영역의 여러 작업에서 효과성이 입증되었지만, 특히 자동 채점의 경우, 교육 환경에서의 적용 가능성과 신뢰성은 아직 충분히 연구되지 않았습니다. 우리는 여러 평가 데이터 세트, LLM 패밀리, 그리고 생성 제어 설정을 포괄적으로 분석하여, LLM이 채점 시나리오에서 나타내는 불확실성 패턴을 규명합니다. 이러한 결과를 바탕으로, 다양한 불확실성 지표의 장단점을 평가하고, 모델 패밀리, 평가 작업, 그리고 디코딩 전략과 같은 주요 요인이 불확실성 추정에 미치는 영향을 분석합니다. 본 연구는 LLM 기반 자동 평가에서 나타나는 불확실성의 특징에 대한 실질적인 통찰력을 제공하며, 향후 더 신뢰할 수 있고 효과적인 불확실성을 고려한 채점 시스템을 개발하기 위한 기초를 마련합니다.
The rapid rise of large language models (LLMs) is reshaping the landscape of automatic assessment in education. While these systems demonstrate substantial advantages in adaptability to diverse question types and flexibility in output formats, they also introduce new challenges related to output uncertainty, stemming from the inherently probabilistic nature of LLMs. Output uncertainty is an inescapable challenge in automatic assessment, as assessment results often play a critical role in informing subsequent pedagogical actions, such as providing feedback to students or guiding instructional decisions. Unreliable or poorly calibrated uncertainty estimates can lead to unstable downstream interventions, potentially disrupting students' learning processes and resulting in unintended negative consequences. To systematically understand this challenge and inform future research, we benchmark a broad range of uncertainty quantification methods in the context of LLM-based automatic assessment. Although the effectiveness of these methods has been demonstrated in many tasks across other domains, their applicability and reliability in educational settings, particularly for automatic grading, remain underexplored. Through comprehensive analyses of uncertainty behaviors across multiple assessment datasets, LLM families, and generation control settings, we characterize the uncertainty patterns exhibited by LLMs in grading scenarios. Based on these findings, we evaluate the strengths and limitations of different uncertainty metrics and analyze the influence of key factors, including model families, assessment tasks, and decoding strategies, on uncertainty estimates. Our study provides actionable insights into the characteristics of uncertainty in LLM-based automatic assessment and lays the groundwork for developing more reliable and effective uncertainty-aware grading systems in the future.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.