2602.12172v1 Feb 12, 2026 cs.AI

언어 모델 지식 증류를 위한 교육학적 원리 기반 데이터 합성

Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation

Bowei He
Bowei He
Citations: 121
h-index: 6
Chen Ma
Chen Ma
Citations: 10
h-index: 1
Yankai Chen
Yankai Chen
Citations: 253
h-index: 7
Xiaokun Zhang
Xiaokun Zhang
Citations: 19
h-index: 2
Philip S. Yu
Philip S. Yu
Citations: 44
h-index: 4
Xue Liu
Xue Liu
Citations: 1
h-index: 1
Linghe Kong
Linghe Kong
Citations: 50
h-index: 4

대규모 언어 모델(LLM)에서 소형 모델로의 지식 증류는 효율적인 AI 시스템 배포를 위한 핵심 기술로 부상했습니다. 그러나 합성 데이터를 이용한 기존 증류 방법들은 지식 전달을 체계적인 학습 과정이 아닌 일회성 데이터 합성 및 훈련 작업으로 취급하여, 교육학적 고려가 결여되어 있습니다. 본 논문에서는 근본적인 교육 원칙에 착안한, 새로운 교육학적 원리 기반의 LLM 지식 증류 프레임워크를 제안합니다. 우리의 접근 방식은 지식 식별기(Identifier), 조직기(Organizer), 적응기(Adapter)로 구성된 IOA라는 3단계 파이프라인을 도입합니다. 이 파이프라인은 학생 모델의 지식 결핍을 체계적으로 식별하고, 점진적인 커리큘럼을 통해 지식 전달을 조직하며, 학생 모델의 인지 능력에 맞춰 표현을 조정합니다. 우리는 블룸의 완전 학습 원리와 비고츠키의 근접 발달 영역 개념을 통합하여 동적인 증류 과정을 구축했습니다. 이 과정에서 학생 모델은 다음 단계로 나아가기 전에 선수 지식에 대해 교사 모델의 성능에 근접해야 하며, 새로운 지식은 통제된 상태에서 점진적으로 난이도를 높여 도입됩니다. LLaMA-3.1/3.2 및 Qwen2.5를 학생 모델로 사용한 광범위한 실험 결과, IOA는 기존 증류 방법 대비 상당한 성능 향상을 입증했습니다. 특히 학생 모델은 교사 모델 파라미터의 1/10 미만을 사용하면서도 DollyEval에서 교사 모델 성능의 94.7%를 유지했습니다. 또한 우리 프레임워크는 특히 복잡한 추론 작업에서 탁월한 성능을 보였으며, 최신 베이스라인 모델들과 비교하여 MATH에서 19.2%, HumanEval에서 22.3%의 성능 향상을 기록했습니다.

Original Abstract

Knowledge distillation from Large Language Models (LLMs) to smaller models has emerged as a critical technique for deploying efficient AI systems. However, current methods for distillation via synthetic data lack pedagogical awareness, treating knowledge transfer as a one-off data synthesis and training task rather than a systematic learning process. In this paper, we propose a novel pedagogically-inspired framework for LLM knowledge distillation that draws from fundamental educational principles. Our approach introduces a three-stage pipeline -- Knowledge Identifier, Organizer, and Adapter (IOA) -- that systematically identifies knowledge deficiencies in student models, organizes knowledge delivery through progressive curricula, and adapts representations to match the cognitive capacity of student models. We integrate Bloom's Mastery Learning Principles and Vygotsky's Zone of Proximal Development to create a dynamic distillation process where student models approach teacher model's performance on prerequisite knowledge before advancing, and new knowledge is introduced with controlled, gradual difficulty increments. Extensive experiments using LLaMA-3.1/3.2 and Qwen2.5 as student models demonstrate that IOA achieves significant improvements over baseline distillation methods, with student models retaining 94.7% of teacher performance on DollyEval while using less than 1/10th of the parameters. Our framework particularly excels in complex reasoning tasks, showing 19.2% improvement on MATH and 22.3% on HumanEval compared with state-of-the-art baselines.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!