2602.17686v1 Feb 05, 2026 cs.LG

구조 인식 마스킹 및 GRPO를 활용한 효율적인 체인-오브-토 딕스틸레이션을 위한 교육 과정 학습

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Bowen Yu
Bowen Yu
Citations: 9,048
h-index: 17
Maolin Wang
Maolin Wang
Citations: 250
h-index: 9
Sheng Zhang
Sheng Zhang
Citations: 2,060
h-index: 3
Binhao Wang
Binhao Wang
Citations: 21
h-index: 2
Yiwen Wen
Yiwen Wen
Citations: 91
h-index: 5
Jingtong Gao
Jingtong Gao
Citations: 27
h-index: 3
Bowen Liu
Bowen Liu
Citations: 41
h-index: 4
Zimo Zhao
Zimo Zhao
Citations: 20
h-index: 2
Wanyu Wang
Wanyu Wang
Citations: 862
h-index: 17
Xiangyu Zhao
Xiangyu Zhao
Citations: 2
h-index: 1

대규모 언어 모델에서 체인-오브-토(CoT) 추론을 소형 학생 모델로 전달하는 것은 근본적인 과제입니다. 왜냐하면, 교사의 설명이 종종 작은 모델이 충실하게 재현하기에 너무 장황하기 때문입니다. 기존 방법들은 추론을 단일 단계로 압축하여 CoT의 가치를 제공하는 해석력을 잃게 만듭니다. 우리는 점진적인 기술 습득을 통해 이러한 능력 차이를 해결하는 세 단계의 교육 과정 학습 프레임워크를 제시합니다. 첫째, 마스킹된 셔플 재구성을 통해 구조적 이해를 확립합니다. 둘째, 마스킹된 완성 작업에 그룹 상대 정책 최적화(GRPO)를 적용하여 모델이 정확성과 간결성 사이의 균형을 스스로 찾도록 합니다. 셋째, 지속적인 실패 사례를 식별하고, GRPO를 통해 최적화된 타겟 재작성을 통해 학생 모델이 교사의 지식을 내재화하도록 안내합니다. GSM8K 데이터셋에 대한 실험 결과, 우리의 접근 방식은 Qwen2.5-3B-Base 모델이 11.29%의 정확도 향상을 달성하면서 출력 길이를 27.4% 줄였으며, 이는 명령어 튜닝된 변종 및 기존 딕스틸레이션 방법보다 우수한 성능입니다.

Original Abstract

Distilling Chain-of-Thought (CoT) reasoning from large language models into compact student models presents a fundamental challenge: teacher rationales are often too verbose for smaller models to faithfully reproduce. Existing approaches either compress reasoning into single-step, losing the interpretability that makes CoT valuable. We present a three-stage curriculum learning framework that addresses this capacity mismatch through progressive skill acquisition. First, we establish structural understanding via masked shuffled reconstruction. Second, we apply Group Relative Policy Optimization (GRPO) on masked completion tasks, enabling the model to discover its own balance between accuracy and brevity. Third, we identify persistent failure cases and guide the student to internalize teacher knowledge through targeted rewriting, again optimized with GRPO. Experiments on GSM8K demonstrate that our approach enables Qwen2.5-3B-Base to achieve an 11.29 percent accuracy improvement while reducing output length by 27.4 percent, surpassing both instruction-tuned variants and prior distillation methods.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!