2604.23747v1 Apr 26, 2026 cs.LG

LLM 추론에서 SFT-then-RL 방식이 혼합 정책 방식보다 우수한 성능을 보임

SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning

V. Pyatkin
V. Pyatkin
Citations: 2
h-index: 1
Imanol Schlag
Imanol Schlag
Citations: 2,814
h-index: 16
Alexis Limozin
Alexis Limozin
Citations: 0
h-index: 0
Eduard Durech
Eduard Durech
Citations: 30
h-index: 2
Torsten Hoefler
Torsten Hoefler
Citations: 930
h-index: 8

최근 LLM 추론을 위한 혼합 정책 최적화 방법들은 지도 학습 및 강화 학습 신호를 결합하여 표준적인 SFT-then-RL 파이프라인보다 성능이 향상되었다고 보고합니다. 본 연구에서는 최근 발표된 여러 연구 논문들이 두 가지 별개의 오류로 인해 잘못된 기준 성능을 사용하고 있음을 보여줍니다. 첫 번째 오류는 DeepSpeed에서 발생하는 CPU 오프로드 최적화기의 버그로, 기울기 누적 과정에서 중간 마이크로 배치들을 조용히 제거합니다 (TRL, OpenRLHF 및 Llama-Factory를 포함한 여러 하위 프레임워크에 영향을 미침). 두 번째 오류는 OpenRLHF에서 발생하는 손실 결합 버그로, 각 마이크로 배치 손실을 잘못된 방식으로 가중치를 부여합니다. 이러한 오류들은 SFT 성능을 저하시키며, 최적화기 버그가 대부분의 성능 저하를 유발하고, 손실 결합 버그는 더 작은 추가적인 영향을 미칩니다. 오류가 수정된 후, 표준적인 SFT-then-RL 파이프라인은 Qwen2.5-Math-7B 모델에서 수학 벤치마크에서 +3.8점, Llama-3.1-8B 모델에서 +22.2점의 향상된 성능을 보이며, 평가된 모든 혼합 정책 방법보다 우수한 성능을 나타냅니다. 심지어 50단계의 강화 학습만 수행한 축소된 버전조차도 수학 벤치마크에서 혼합 정책 방식보다 우수한 성능을 보이며, 더 적은 FLOPs를 사용합니다.

Original Abstract

Recent mixed-policy optimization methods for LLM reasoning that interleave or blend supervised and reinforcement learning signals report improvements over the standard SFT-then-RL pipeline. We show that numerous recently published research papers rely on a faulty baseline caused by two distinct bugs: a CPU-offloaded optimizer bug in DeepSpeed that silently drops intermediate micro-batches during gradient accumulation (affecting multiple downstream frameworks including TRL, OpenRLHF and Llama-Factory), and a loss aggregation bug in OpenRLHF that incorrectly weights per-mini-batch losses. Together they suppress SFT performance, with the optimizer bug accounting for most of the gap and the loss aggregation bug contributing a smaller additional effect. Once corrected, the standard SFT-then-RL pipeline surpasses every published mixed-policy method we evaluate by +3.8 points on math benchmarks with Qwen2.5-Math-7B and by +22.2 points with Llama-3.1-8B. Even a truncated variant with just 50 RL steps outperforms mixed-policy methods on math benchmarks while using fewer FLOPs.

0 Citations
0 Influential
8 Altmetric
40.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!