LLM 추론에서 SFT-then-RL 방식이 혼합 정책 방식보다 우수한 성능을 보임
SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning
최근 LLM 추론을 위한 혼합 정책 최적화 방법들은 지도 학습 및 강화 학습 신호를 결합하여 표준적인 SFT-then-RL 파이프라인보다 성능이 향상되었다고 보고합니다. 본 연구에서는 최근 발표된 여러 연구 논문들이 두 가지 별개의 오류로 인해 잘못된 기준 성능을 사용하고 있음을 보여줍니다. 첫 번째 오류는 DeepSpeed에서 발생하는 CPU 오프로드 최적화기의 버그로, 기울기 누적 과정에서 중간 마이크로 배치들을 조용히 제거합니다 (TRL, OpenRLHF 및 Llama-Factory를 포함한 여러 하위 프레임워크에 영향을 미침). 두 번째 오류는 OpenRLHF에서 발생하는 손실 결합 버그로, 각 마이크로 배치 손실을 잘못된 방식으로 가중치를 부여합니다. 이러한 오류들은 SFT 성능을 저하시키며, 최적화기 버그가 대부분의 성능 저하를 유발하고, 손실 결합 버그는 더 작은 추가적인 영향을 미칩니다. 오류가 수정된 후, 표준적인 SFT-then-RL 파이프라인은 Qwen2.5-Math-7B 모델에서 수학 벤치마크에서 +3.8점, Llama-3.1-8B 모델에서 +22.2점의 향상된 성능을 보이며, 평가된 모든 혼합 정책 방법보다 우수한 성능을 나타냅니다. 심지어 50단계의 강화 학습만 수행한 축소된 버전조차도 수학 벤치마크에서 혼합 정책 방식보다 우수한 성능을 보이며, 더 적은 FLOPs를 사용합니다.
Recent mixed-policy optimization methods for LLM reasoning that interleave or blend supervised and reinforcement learning signals report improvements over the standard SFT-then-RL pipeline. We show that numerous recently published research papers rely on a faulty baseline caused by two distinct bugs: a CPU-offloaded optimizer bug in DeepSpeed that silently drops intermediate micro-batches during gradient accumulation (affecting multiple downstream frameworks including TRL, OpenRLHF and Llama-Factory), and a loss aggregation bug in OpenRLHF that incorrectly weights per-mini-batch losses. Together they suppress SFT performance, with the optimizer bug accounting for most of the gap and the loss aggregation bug contributing a smaller additional effect. Once corrected, the standard SFT-then-RL pipeline surpasses every published mixed-policy method we evaluate by +3.8 points on math benchmarks with Qwen2.5-Math-7B and by +22.2 points with Llama-3.1-8B. Even a truncated variant with just 50 RL steps outperforms mixed-policy methods on math benchmarks while using fewer FLOPs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.