LLM 기반 자동 채점을 위한 문맥 내 예시 최적화
Optimizing In-Context Demonstrations for LLM-based Automated Grading
개방형 학생 응답에 대한 자동 평가는 교육에서 개인 맞춤형 피드백을 확장하는 데 중요한 기능입니다. 대규모 언어 모델(LLM)은 문맥 내 학습(ICL)을 통해 채점 작업에서 잠재력을 보여주었지만, 그 신뢰성은 소수의 예시 선택과 고품질 설명 구성에 크게 의존합니다. 일반적인 검색 방법은 종종 채점 기준 준수에 필요한 미묘한 의사 결정 경계를 포착하지 못하는 의미적 유사성을 기반으로 예시를 선택합니다. 또한, 이러한 모델을 안내하는 데 필요한 전문가의 설명을 수동으로 작성하는 것은 상당한 병목 현상이 될 수 있습니다. 이러한 제한 사항을 해결하기 위해, 우리는 GUIDE(Grading Using Iteratively Designed Exemplars, 반복적으로 설계된 예시를 활용한 채점)라는 프레임워크를 소개합니다. GUIDE는 자동 채점에서 예시 선택 및 개선을 경계 중심 최적화 문제로 재구성합니다. GUIDE는 선택과 개선을 반복하는 방식으로 작동하며, 의미적으로 유사하지만 다른 점수를 갖는 "경계 쌍"을 식별하기 위해 새로운 대비 연산자를 사용합니다. 우리는 예시를 향상시키기 위해, 특정 응답이 특정 점수를 받는 이유를 명시적으로 설명하는, 인접한 점수를 배제하는 차별적인 설명을 생성합니다. 물리학, 화학 및 교육 콘텐츠 지식에 대한 데이터 세트를 사용한 광범위한 실험 결과, GUIDE는 표준 검색 기준보다 훨씬 우수한 성능을 보였습니다. 모델의 주의를 채점 기준의 정확한 경계에 집중함으로써, 우리의 접근 방식은 경계 사례에서 뛰어난 성능 향상과 향상된 채점 기준 준수를 보여줍니다. GUIDE는 인간의 교육적 기준과 밀접하게 일치하는 신뢰할 수 있고 확장 가능한 평가 시스템을 위한 길을 열어줍니다.
Automated assessment of open-ended student responses is a critical capability for scaling personalized feedback in education. While large language models (LLMs) have shown promise in grading tasks via in-context learning (ICL), their reliability is heavily dependent on the selection of few-shot exemplars and the construction of high-quality rationales. Standard retrieval methods typically select examples based on semantic similarity, which often fails to capture subtle decision boundaries required for rubric adherence. Furthermore, manually crafting the expert rationales needed to guide these models can be a significant bottleneck. To address these limitations, we introduce GUIDE (Grading Using Iteratively Designed Exemplars), a framework that reframes exemplar selection and refinement in automated grading as a boundary-focused optimization problem. GUIDE operates on a continuous loop of selection and refinement, employing novel contrastive operators to identify "boundary pairs" that are semantically similar but possess different grades. We enhance exemplars by generating discriminative rationales that explicitly articulate why a response receives a specific score to the exclusion of adjacent grades. Extensive experiments across datasets in physics, chemistry, and pedagogical content knowledge demonstrate that GUIDE significantly outperforms standard retrieval baselines. By focusing the model's attention on the precise edges of rubric, our approach shows exceptionally robust gains on borderline cases and improved rubric adherence. GUIDE paves the way for trusted, scalable assessment systems that align closely with human pedagogical standards.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.