국가 교육 과정에서 문화적 인식으로: 개방형, 문화 특화 질의응답 데이터셋 구축
From National Curricula to Cultural Awareness: Constructing Open-Ended Culture-Specific Question Answering Dataset
대규모 언어 모델(LLM)은 다양한 작업에서 뛰어난 성능을 보이지만, 언어 및 문화별로 성능 편차가 크며, 이는 종종 영어 중심의 학습 데이터에 내재된 가치를 반영합니다. 실질적인 문화적 적합성을 확보하기 위해, 우리는 국가 사회 과 교육 과정을 기반으로 문화적 이해를 위한 지도 학습을 수행하는 확장 가능한 접근 방식을 제안합니다. 우리는 CuCu라는 자동화된 다중 에이전트 LLM 프레임워크를 소개합니다. CuCu는 국가 교과서를 개방형, 문화 특화 질의응답 쌍으로 변환합니다. CuCu를 한국 국가 사회 과 교육 과정에 적용하여, 34,100개의 개방형 질의응답 쌍으로 구성된 KCaQA 데이터셋을 구축했습니다. 정량적 및 정성적 분석 결과, KCaQA는 문화 특화 주제를 포괄하며, 지역 사회문화적 맥락에 기반한 답변을 생성하는 것으로 나타났습니다.
Large language models (LLMs) achieve strong performance on many tasks, but their progress remains uneven across languages and cultures, often reflecting values latent in English-centric training data. To enable practical cultural alignment, we propose a scalable approach that leverages national social studies curricula as a foundation for culture-aware supervision. We introduce CuCu, an automated multi-agent LLM framework that transforms national textbook curricula into open-ended, culture-specific question-answer pairs. Applying CuCu to the Korean national social studies curriculum, we construct KCaQA, comprising 34.1k open-ended QA pairs. Our quantitative and qualitative analyses suggest that KCaQA covers culture-specific topics and produces responses grounded in local sociocultural contexts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.