2604.10688v1 Apr 12, 2026 cs.LG

SCOPE: 신호-보정 온-정책 증류 강화 방법 - 이중 경로 기반 적응적 가중치 부여

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Ke Zeng
Ke Zeng
Citations: 39
h-index: 3
Xiao Fu
Xiao Fu
Citations: 16
h-index: 2
Jingqing Ruan
Jingqing Ruan
Citations: 49
h-index: 3
Binbin Zheng
Binbin Zheng
Citations: 1
h-index: 1
Xunliang Cai
Xunliang Cai
Citations: 31
h-index: 4
Xing Ma
Xing Ma
Citations: 29
h-index: 3
Yiheng Liang
Yiheng Liang
Citations: 0
h-index: 0
Kepeng Lin
Kepeng Lin
Citations: 0
h-index: 0
Benchang Zhu
Benchang Zhu
Citations: 0
h-index: 0

온-정책 강화 학습은 대규모 언어 모델의 추론 정렬을 위한 주요 패러다임으로 자리 잡았지만, 희소하고 결과 수준의 보상은 토큰 수준의 기여도 할당을 매우 어렵게 만듭니다. 온-정책 증류(OPD)는 교사 모델로부터의 밀집된 토큰 수준 KL 감독 신호를 도입하여 이 문제를 완화하지만, 일반적으로 이 감독 신호를 모든 학습 데이터에 대해 균일하게 적용하여 신호 품질의 근본적인 차이를 무시합니다. 본 논문에서는 신호-보정 온-정책 증류 강화 방법(SCOPE)을 제안합니다. SCOPE는 이중 경로 기반의 적응적 학습 프레임워크로, 온-정책 학습 데이터를 정확도에 따라 두 가지 상호 보완적인 감독 경로로 분리합니다. 부정확한 학습 데이터의 경우, SCOPE는 교사 모델의 퍼플렉시티를 가중치로 사용하여 KL 증류를 수행하여 교사가 진정한 교정 능력을 보여주는 경우에 우선순위를 부여하고, 신뢰할 수 없는 지침은 가중치를 낮춥니다. 반면, 정확한 학습 데이터의 경우, 학생 모델의 퍼플렉시티를 가중치로 사용하여 MLE(Maximum Likelihood Estimation)를 적용하여, 이미 숙달된 샘플보다 능력 경계에서 낮은 확신을 보이는 샘플에 강화 학습을 집중합니다. 두 경로 모두 그룹 수준의 정규화를 사용하여 가중치 분포를 적응적으로 조정하여 프롬프트 간의 고유한 난이도 차이를 고려합니다. 6개의 추론 벤치마크에 대한 광범위한 실험 결과, SCOPE는 Avg@32에서 평균 11.42%, Pass@32에서 평균 7.30%의 상대적인 성능 향상을 보여주었으며, 이는 일관된 효과를 입증합니다.

Original Abstract

On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!