증거 중심 설계 기반의 다중 에이전트 시스템을 활용하여 차세대 과학 평가 도구 개발
Developing a Multi-Agent System to Generate Next Generation Science Assessments with Evidence-Centered Design
차세대 과학 교육 표준(NGSS)과 같은 현대 과학 교육 개혁은 학생들이 과학 지식을 활용하여 문제를 해결하고 해결책을 설계하는 능력을 평가하는 데 중점을 둡니다. 이러한 고차원적 능력을 평가하기 위해서는 수행 기반 평가가 필요하지만, 이는 개발하기 어렵습니다. 이를 해결하기 위한 한 가지 방법으로, 학습자, 증거, 과제 간의 연관성을 강조하는 증거 중심 설계(ECD)가 널리 활용되고 있습니다. ECD는 평가의 타당성을 확보하는 데 도움이 되는 프레임워크를 제공하지만, 구현에는 다양한 분야의 전문 지식(예: 내용 및 평가)이 필요하며, 이는 비용이 많이 들고 노동 집약적입니다. 이러한 문제를 해결하기 위해, 본 연구에서는 ECD 프레임워크를 다중 에이전트 시스템(MAS)에 통합하여 NGSS와 연계된 평가 문항을 자동으로 생성하는 방안을 제안합니다. 제안된 MAS 시스템은 다양한 전문성을 가진 여러 대규모 언어 모델을 통합하여, 인간 전문가가 수행하던 복잡하고 다단계의 문항 생성 워크플로우를 자동화합니다. 본 연구에서는 AI가 생성한 NGSS 연계 문항의 품질을 평가하고, 다양한 평가 설계 측면에서 인간이 개발한 문항과 비교했습니다. 결과는 AI가 생성한 문항이 NGSS의 3차원 표준 및 인지적 요구 수준과의 일관성 측면에서 인간이 개발한 문항과 전반적으로 유사한 품질을 갖는다는 것을 보여주었습니다. 또한, AI가 생성한 문항은 포용성 측면에서 강점을 보이는 반면, 명확성, 간결성, 다중 모드 설계 측면에서 한계점을 보였습니다. AI 및 인간이 개발한 문항 모두 증거 수집 가능성 및 학생의 흥미 유발 측면에서 약점을 보였습니다. 이러한 결과는 ECD를 MAS에 통합함으로써 확장 가능하고 표준에 부합하는 평가 설계가 가능하며, 동시에 인간 전문가의 전문성이 여전히 중요하다는 것을 시사합니다.
Contemporary science education reforms such as the Next Generation Science Standards (NGSS) demand assessments to understand students' ability to use science knowledge to solve problems and design solutions. To elicit such higher-order ability, educators need performance-based assessments, which are challenging to develop. One solution that has been broadly adopted is Evidence-Centered Design (ECD), which emphasizes interconnected models of the learner, evidence, and tasks. Although ECD provides a framework to safeguard assessment validity, its implementation requires diverse expertise (e.g., content and assessment), which is both costly and labor-intensive. To address this challenge, this study proposed integrating the ECD framework into Multi-Agent Systems (MAS) to generate NGSS-aligned assessment items automatically. This integrated MAS system ensembles multiple large language models with varying expertise, enabling the automation of complex, multi-stage item generation workflows traditionally performed by human experts. We examined the quality of AI-generated NGSS-aligned items and compared them with human-developed items across multiple dimensions of assessment design. Results showed that AI-generated items have overall comparable quality to human-developed items in terms of alignment with NGSS three-dimensional standards and cognitive demands. Divergent patterns also emerged: AI-generated items demonstrated a distinct strength in inclusivity, while also exhibiting limitations in clarity, conciseness, and multimodal design. AI- and human-developed items both showed weaknesses in evidence collectability and student interest alignment. These findings suggest that integrating ECD into MAS can support scalable and standards-aligned assessment design, while human expertise remains essential.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.