안정적 비동기화: LLM을 위한 분산 제어 오프폴리시 강화학습
Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs
강화학습(RL)은 추론 작업에서 대형 언어 모델을 개선하는 데 널리 사용되며, 비동기식 RL 훈련은 종단 간 처리량을 증가시키기 때문에 매력적이다. 그러나 REINFORCE 및 GRPO와 같이 널리 채택된 크리틱이 없는(critic-free) 정책 경사(policy-gradient) 방법의 경우, 높은 비동기성은 정책 경사 추정기가 현저히 $\textbf{더 높은 분산}$을 갖게 만든다. 오래된(stale) 롤아웃으로 훈련하면 꼬리가 두꺼운 중요도 비율이 생성되어 소수의 샘플이 업데이트를 지배하게 되기 때문이다. 이러한 증폭은 매칭되는 온폴리시(on-policy) 훈련에 비해 기울기에 노이즈를 발생시키고 학습을 불안정하게 만든다. 수학 및 일반 추론 벤치마크 전반에 걸쳐, 우리는 유효 표본 크기(ESS)와 불안정한 기울기 노름(norm)을 통해 붕괴 현상을 신뢰할 수 있게 예측할 수 있음을 발견했다. 이러한 진단을 바탕으로, 우리는 REINFORCE/GRPO 스타일 알고리즘을 위한 일반적인 안정화 방법인 분산 제어 정책 최적화($\textbf{V}$ariance $\textbf{C}$ontrolled $\textbf{P}$olicy $\textbf{O}$ptimization, $\textbf{VCPO}$)를 제안한다. 이 방법은 (i) 신뢰할 수 없는 업데이트를 완화하기 위해 유효 표본 크기에 따라 학습률을 스케일링하고, (ii) 오프폴리시 환경을 위한 닫힌 형태(closed-form)의 최소 분산 베이스라인을 적용하여 보조 가치 모델을 피하고 오버헤드를 최소화한다. 경험적으로 VCPO는 수학, 일반 추론 및 도구 사용 작업 전반에서 비동기 훈련의 견고성을 실질적으로 향상시키며, 마스킹/클리핑 안정화 기법 및 알고리즘 변형을 포괄하는 광범위한 베이스라인을 능가한다. 이 기법은 동기식 훈련의 성능과 필적하면서도 긴 문맥 및 다중 턴 훈련 시간을 2.5$\times$ 단축시키며, 정책 경사 분산에 대한 명시적 제어가 대규모 환경에서 신뢰할 수 있는 비동기 RL의 핵심임을 입증한다.
Reinforcement learning (RL) is widely used to improve large language models on reasoning tasks, and asynchronous RL training is attractive because it increases end-to-end throughput. However, for widely adopted critic-free policy-gradient methods such as REINFORCE and GRPO, high asynchrony makes the policy-gradient estimator markedly $\textbf{higher variance}$: training on stale rollouts creates heavy-tailed importance ratios, causing a small fraction of samples to dominate updates. This amplification makes gradients noisy and learning unstable relative to matched on-policy training. Across math and general reasoning benchmarks, we find collapse is reliably predicted by effective sample size (ESS) and unstable gradient norms. Motivated by this diagnosis, we propose $\textbf{V}$ariance $\textbf{C}$ontrolled $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{VCPO}$), a general stabilization method for REINFORCE/GRPO-style algorithms that (i) scales learning rate based on effective sample size to dampen unreliable updates, and (ii) applies a closed-form minimum-variance baseline for the off-policy setting, avoiding an auxiliary value model and adding minimal overhead. Empirically, VCPO substantially improves robustness for asynchronous training across math, general reasoning, and tool-use tasks, outperforming a broad suite of baselines spanning masking/clipping stabilizers and algorithmic variants. This reduces long-context, multi-turn training time by 2.5$\times$ while matching synchronous performance, demonstrating that explicit control of policy-gradient variance is key for reliable asynchronous RL at scale.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.