자기 증류를 통한 강화 학습
Reinforcement Learning via Self-Distillation
최근 대규모 언어 모델은 코딩 및 수학과 같이 검증 가능한 영역에서 강화 학습을 통해 추가 학습되고 있습니다. 그러나 검증 가능한 보상을 활용한 강화 학습(RLVR)의 현재 방법은 시도 횟당 단일 스칼라 보상만을 사용하며, 이는 심각한 신용 할당 문제를 야기합니다. 많은 검증 가능한 환경은 실제로 런타임 오류나 평가와 같은 풍부한 텍스트 피드백을 제공하여 시도가 실패한 이유를 설명합니다. 본 연구에서는 이러한 설정을 풍부한 피드백을 사용하는 강화 학습으로 공식화하고, 외부 교사나 명시적인 보상 모델 없이 토큰화된 피드백을 밀집된 학습 신호로 변환하는 Self-Distillation Policy Optimization (SDPO) 방법을 제안합니다. SDPO는 피드백에 기반한 현재 모델을 자체 교사 모델로 간주하고, 피드백 정보를 반영한 다음 토큰 예측을 정책에 전달합니다. 이를 통해 SDPO는 모델이 문맥 내에서 자신의 실수를 사후적으로 식별하는 능력을 활용합니다. LiveCodeBench v6에서 과학적 추론, 도구 사용 및 경쟁 프로그래밍 작업을 수행한 결과, SDPO는 강력한 RLVR 기준 모델보다 샘플 효율성과 최종 정확도를 향상시켰습니다. 특히, SDPO는 스칼라 피드백만 제공하는 표준 RLVR 환경에서도 성공적인 실행을 실패한 시도의 암묵적인 피드백으로 활용하여 기준 모델보다 더 나은 성능을 보였습니다. 마지막으로, SDPO를 테스트 시간에 개별 문제에 적용하면 어려운 이진 보상 작업에서 더 빠른 학습을 가능하게 하며, 최고 k개 샘플링 또는 다중 턴 대화와 동일한 발견 확률을 3배 적은 시도 횟수로 달성합니다.
Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.