좋은 SFT는 SFT를 최적화하고, 더 나은 SFT는 강화 학습을 위한 준비를 한다
Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning
추론 능력을 갖춘 LLM의 후속 훈련은 일반적으로 오프라인 SFT(지도 학습) 단계와 온라인 강화 학습(RL) 단계로 구성된 통합적인 과정입니다. 하지만 SFT는 종종 SFT 성능만을 극대화하기 위해 독립적으로 최적화됩니다. 저희는 동일한 RL 훈련 후, 더 강력한 SFT 체크포인트에서 초기화된 모델이 더 약한 체크포인트에서 초기화된 모델보다 성능이 현저히 떨어지는 것을 확인했습니다. 이는 현재 SFT-RL 파이프라인에서 흔히 발생하는 불일치 때문입니다. 즉, 오프라인 SFT 데이터를 생성하는 분포와 온라인 RL 과정에서 최적화되는 정책 간에 상당한 차이가 있을 수 있으며, 이 과정에서 모델은 자체적으로 생성된 데이터를 학습합니다. 저희는 PEAR(Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting)라는 SFT 단계 방법을 제안합니다. PEAR는 이러한 불일치를 해결하고 모델이 RL에 더 잘 대비할 수 있도록 합니다. PEAR는 중요 샘플링을 사용하여 SFT 손실을 재가중치하며, 토큰, 블록, 시퀀스 레벨에서 작동하는 세 가지 변형이 있습니다. PEAR는 표준 SFT 목표를 보완하는 데 사용될 수 있으며, 오프라인 데이터에 대한 확률이 수집되면 추가적인 훈련 오버헤드가 거의 없습니다. 저희는 Qwen 2.5 및 3, 그리고 DeepSeek-distilled 모델에서 검증 가능한 추론 게임 및 수학적 추론 작업에 대한 통제된 실험을 수행했습니다. PEAR는 일관되게 표준 SFT보다 후속 RL 성능을 향상시켰으며, AIME2025에서 최대 14.6%의 'pass at 8' 향상을 보였습니다. 이러한 결과는 PEAR가 SFT를 독립적으로 설계하고 평가하는 것이 아니라, 다운스트림 RL을 염두에 두고 LLM의 통합적인 후속 훈련을 위한 효과적인 단계임을 시사합니다.
Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement learning (RL) stage. However, SFT is often optimized in isolation to maximize SFT performance alone. We show that, after identical RL training, models initialized from stronger SFT checkpoints can significantly underperform those initialized from weaker ones. We attribute this to a mismatch typical in current SFT-RL pipelines: the distribution that generates the offline SFT data can differ substantially from the policy optimized during online RL, which learns from its own rollouts. We propose PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), an SFT-stage method that corrects this mismatch and better prepares the model for RL. PEAR uses importance sampling to reweight the SFT loss, with three variants operating at the token, block, and sequence levels. It can be used to augment standard SFT objectives and incurs little additional training overhead once probabilities for the offline data are collected. We conduct controlled experiments on verifiable reasoning games and mathematical reasoning tasks on Qwen 2.5 and 3 and DeepSeek-distilled models. PEAR consistently improves post-RL performance over canonical SFT, with pass at 8 gains up to a 14.6 percent on AIME2025. Our results suggest that PEAR is an effective step toward more holistic LLM post-training by designing and evaluating SFT with downstream RL in mind rather than in isolation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.