ArguAgent: AI 기반 실시간 그룹핑 시스템을 활용한 STEM 교실에서의 생산적인 논쟁 촉진
ArguAgent: AI-Supported Real-Time Grouping for Productive Argumentation in STEM Classrooms
논쟁은 STEM 교육의 핵심적인 활동이지만, 그 효과는 참여 학생과 상호작용 방식에 따라 달라집니다. 일반적으로 학업 성취도가 높은 학생들은 토론과 의사 결정 과정을 주도하는 반면, 학업 성취도가 낮은 학생들은 소외감을 느끼거나, 회피하거나, 의견을 제시하지 않고 따르는 경향이 있습니다. 학생들의 입장과 논쟁 기술을 고려하여 그룹을 전략적으로 구성하면, 포용적이고 증거 기반의 토론을 촉진할 수 있습니다. 그러나 실제로는 교사들이 학생들의 입장과 논쟁 품질에 대한 실시간적인 이해를 바탕으로 그룹을 구성하기 어렵습니다. 이는 정확하고 효율적인 평가가 어렵기 때문입니다. 본 연구에서는 생성형 AI 기술을 활용하여 그룹을 구성하는 시스템인 ArguAgent를 개발했습니다. ArguAgent는 검증된 학습 과정을 기반으로, 그룹 내 학생들의 입장 다양성을 극대화하면서 논쟁 품질의 차이를 최대 +/- 1 단계 이내로 제한하도록 설계되었습니다. ArguAgent는 두 가지 구성 요소로 이루어진 평가 파이프라인을 사용합니다. 먼저, 0-4점 척도를 사용하여 학생들의 논증을 평가하고, 그 다음에는 의미 분석을 통해 학생들의 입장을 그룹화합니다. 평가 구성 요소의 정확성을 검증하기 위해 200명의 전문가가 생성한 평가 결과를 사용하여 인간 전문가의 합의(Krippendorff's α = 0.817)와 비교했습니다. 동일한 방식으로 교정된 프롬프트를 사용하여 OpenAI의 세 가지 모델(GPT-4o-mini, GPT-5.1, GPT-5.2)을 테스트한 결과, 인간 전문가의 의견 불일치 분석을 기반으로 한 체계적인 프롬프트 엔지니어링이 평가 정확도 향상에 89% 기여했으며, 모델 업그레이드가 추가로 11% 기여했습니다(QWK: 0.531에서 0.686, 그리고 0.686에서 0.708). 100개 교실에서 시뮬레이션 테스트를 수행한 결과, 그룹핑 알고리즘은 설계 기준을 충족하는 그룹의 95.4%를 생성했으며, 이는 무작위 할당 방식보다 3.2배 향상된 결과입니다. 이러한 결과는 ArguAgent가 실시간으로, 이론적으로 근거 있는 그룹핑을 가능하게 하여 STEM 교실에서 생산적인 논쟁을 촉진할 수 있음을 시사합니다.
Argumentation is a core practice in STEM education, but its productivity depends on who participates and how they interact. Higher-achieving students often dominate the talk and decision-making, while lower-achieving peers may disengage, defer, or comply without contributing substantive reasoning. Forming groups strategically based on students' stances and argumentation skills could help foster inclusive, evidence-based discourse. In practice, however, teachers are constrained in implementing this grouping strategy because it requires real-time insight into students' positions and the quality of their argumentation, information that is difficult to assess reliably and at scale during instruction. We present a generative AI-powered system, ArguAgent, that creates groups optimizing for stance heterogeneity while constraining argumentation quality differences to +/-1 level on a validated learning progression. ArguAgent uses a two-component assessment pipeline: first scoring student arguments on a 0-4 rubric, then clustering positions via semantic analysis. We validated the scoring component against human expert consensus (Krippendorff's ααα = 0.817) using 200 expert-generated scores. Testing three OpenAI models (GPT-4o-mini, GPT-5.1, GPT-5.2) with identical calibrated prompts, we found that systematic prompt engineering informed by human disagreement analysis contributed 89% of scoring improvement (QWK: 0.531 to 0.686), while model upgrades contributed an additional 11% (QWK: 0.686 to 0.708). Simulation testing across 100 classes demonstrated that the grouping algorithm achieves 95.4% of groups that meet both design criteria, a 3.2x improvement over random assignment. These results suggest ArguAgent can enable real-time, theoretically grounded grouping that promotes productive STEM argumentation in classrooms.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.