2602.15260v1 Feb 16, 2026 cs.LG

추론 접두어로부터의 빠르고 효과적인 온라인 증류

Fast and Effective On-policy Distillation from Reasoning Prefixes

Zhichao Yang
Zhichao Yang
Citations: 34
h-index: 3
Sepehr Janghorbani
Sepehr Janghorbani
Citations: 260
h-index: 8
Dongxu Zhang
Dongxu Zhang
Citations: 685
h-index: 11
Jun Han
Jun Han
Citations: 52
h-index: 4
Qian Qian
Qian Qian
Citations: 19
h-index: 2
Andrew Ressler
Andrew Ressler
Citations: 19
h-index: 2
S. Batra
S. Batra
Citations: 3,677
h-index: 13
Robert E. Tillman
Robert E. Tillman
Citations: 19
h-index: 2
Gregory D. Lyng
Gregory D. Lyng
Citations: 520
h-index: 13

온라인 증류(OPD)는 학생 모델에서 샘플링된 경로를 사용하고 토큰 수준에서 교사 모델을 통해 이를 지도하며, 검증 가능한 최종 보상에만 의존하지 않고 오프라인 증류보다 더 나은 일반화 성능을 제공할 수 있습니다. 그러나 OPD는 훈련 중에 학생 정책을 실시간으로 샘플링해야 하므로, 특히 긴 응답의 경우 훈련 비용이 크게 증가합니다. 초기 분석 결과, OPD 과정에서 훈련 신호가 종종 각 출력의 접두부에 집중되며, 짧은 교사 모델이 생성한 접두어만으로도 학생 모델이 올바른 답변을 생성하는 데 크게 도움이 될 수 있다는 것을 알 수 있습니다. 이러한 관찰을 바탕으로, 우리는 간단하면서도 효과적인 OPD의 수정 방법을 제안합니다. 즉, 증류 목표를 학생 모델이 생성한 출력의 접두부에만 적용하고, 각 샘플링을 조기에 종료합니다. AI-for-Math 및 다양한 도메인 벤치마크에서의 실험 결과, 온-라인 접두어 증류는 전체 OPD와 동등한 성능을 보이면서 훈련 FLOP을 2배에서 47배까지 줄입니다.

Original Abstract

On-policy distillation (OPD), which samples trajectories from the student model and supervises them with a teacher at the token level, avoids relying solely on verifiable terminal rewards and can yield better generalization than off-policy distillation. However, OPD requires expensive on-the-fly sampling of the student policy during training, which substantially increases training cost, especially for long responses. Our initial analysis shows that, during OPD, training signals are often concentrated in the prefix of each output, and that even a short teacher-generated prefix can significantly help the student produce the correct answer. Motivated by these observations, we propose a simple yet effective modification of OPD: we apply the distillation objective only to prefixes of student-generated outputs and terminate each sampling early during distillation. Experiments on a suite of AI-for-Math and out-of-domain benchmarks show that on-policy prefix distillation matches the performance of full OPD while reducing training FLOP by 2x-47x.

13 Citations
1 Influential
6.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!