인공지능이 초기 아동 교육을 만나다: 중국 유치원에서의 대규모 언어 모델을 활용한 평가 협력
When AI Meets Early Childhood Education: Large Language Models as Assessment Teammates in Chinese Preschools
양질의 교사-아동 상호작용(TCI)은 초기 아동 발달에 매우 중요하지만, 기존의 전문가 기반 평가는 심각한 확장성 문제를 안고 있습니다. 중국과 같이 3600만 명의 아동을 대상으로 25만 개 이상의 유치원을 운영하는 대규모 시스템에서는, 수동 관찰에 따른 비용과 시간 부담으로 인해 지속적인 품질 관리가 어렵고, 평가는 일회성 감사로 제한되어 적시적인 개입과 개선 추적을 어렵게 만듭니다. 본 논문에서는 AI가 구조화된 품질 지표를 추출하고, 이러한 지표가 인간 전문가의 판단과 일치하는지 검증함으로써 확장 가능한 평가 도구로서 활용될 수 있는지 조사합니다. 본 논문의 주요 기여는 다음과 같습니다. (1) TEPE-TCI-370h: 중국 유치원에서의 자연스러운 교사-아동 상호작용 데이터셋으로, 370시간 분량의 영상(105개 교실)에 대해 표준화된 ECQRS-EC 및 SSTEW 어노테이션이 적용되었습니다. (2) Interaction2Eval: 특정 도메인(어린이 음성 인식, 중국어 동음 이의어 구별, 루브릭 기반 추론)의 과제를 해결하기 위한 특화된 LLM 기반 프레임워크를 개발하여, 최대 88%의 일치율을 달성했습니다. (3) 43개 교실에서의 적용 검증 결과, 평가 워크플로우의 효율성이 18배 향상되었으며, 이는 연례 전문가 감사를 월별 AI 지원 모니터링으로 전환할 수 있는 잠재력을 보여줍니다. 본 연구는 확장 가능한 AI 기반 품질 평가의 기술적 가능성을 입증하는 것뿐만 아니라, 지속적이고 포괄적인 AI 지원 평가가 시스템 전반의 개선과 공정한 성장을 위한 동력이 되는 새로운 초기 아동 교육 패러다임을 구축하는 기반을 마련합니다.
High-quality teacher-child interaction (TCI) is fundamental to early childhood development, yet traditional expert-based assessment faces a critical scalability challenge. In large systems like China's-serving 36 million children across 250,000+ kindergartens-the cost and time requirements of manual observation make continuous quality monitoring infeasible, relegating assessment to infrequent episodic audits that limit timely intervention and improvement tracking. In this paper, we investigate whether AI can serve as a scalable assessment teammate by extracting structured quality indicators and validating their alignment with human expert judgments. Our contributions include: (1) TEPE-TCI-370h (Tracing Effective Preschool Education), the first large-scale dataset of naturalistic teacher-child interactions in Chinese preschools (370 hours, 105 classrooms) with standardized ECQRS-EC and SSTEW annotations; (2) We develop Interaction2Eval, a specialized LLM-based framework addressing domain-specific challenges-child speech recognition, Mandarin homophone disambiguation, and rubric-based reasoning-achieving up to 88% agreement; (3) Deployment validation across 43 classrooms demonstrating an 18x efficiency gain in the assessment workflow, highlighting its potential for shifting from annual expert audits to monthly AI-assisted monitoring with targeted human oversight. This work not only demonstrates the technical feasibility of scalable, AI-augmented quality assessment but also lays the foundation for a new paradigm in early childhood education-one where continuous, inclusive, AI-assisted evaluation becomes the engine of systemic improvement and equitable growth.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.