2602.17616v1 Feb 19, 2026 cs.LG

안정적 비동기화: LLM을 위한 분산 제어 오프폴리시 강화학습

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Zhuoyang Zhang
Zhuoyang Zhang
Citations: 1,257
h-index: 10
Luke J. Huang
Luke J. Huang
Citations: 10
h-index: 2
Shangtong Yang
Shangtong Yang
Citations: 25
h-index: 2
Qinghao Hu
Qinghao Hu
Citations: 495
h-index: 7
Song Han
Song Han
Citations: 279
h-index: 6

강화학습(RL)은 추론 작업에서 대형 언어 모델을 개선하는 데 널리 사용되며, 비동기식 RL 훈련은 종단 간 처리량을 증가시키기 때문에 매력적이다. 그러나 REINFORCE 및 GRPO와 같이 널리 채택된 크리틱이 없는(critic-free) 정책 경사(policy-gradient) 방법의 경우, 높은 비동기성은 정책 경사 추정기가 현저히 $\textbf{더 높은 분산}$을 갖게 만든다. 오래된(stale) 롤아웃으로 훈련하면 꼬리가 두꺼운 중요도 비율이 생성되어 소수의 샘플이 업데이트를 지배하게 되기 때문이다. 이러한 증폭은 매칭되는 온폴리시(on-policy) 훈련에 비해 기울기에 노이즈를 발생시키고 학습을 불안정하게 만든다. 수학 및 일반 추론 벤치마크 전반에 걸쳐, 우리는 유효 표본 크기(ESS)와 불안정한 기울기 노름(norm)을 통해 붕괴 현상을 신뢰할 수 있게 예측할 수 있음을 발견했다. 이러한 진단을 바탕으로, 우리는 REINFORCE/GRPO 스타일 알고리즘을 위한 일반적인 안정화 방법인 분산 제어 정책 최적화($\textbf{V}$ariance $\textbf{C}$ontrolled $\textbf{P}$olicy $\textbf{O}$ptimization, $\textbf{VCPO}$)를 제안한다. 이 방법은 (i) 신뢰할 수 없는 업데이트를 완화하기 위해 유효 표본 크기에 따라 학습률을 스케일링하고, (ii) 오프폴리시 환경을 위한 닫힌 형태(closed-form)의 최소 분산 베이스라인을 적용하여 보조 가치 모델을 피하고 오버헤드를 최소화한다. 경험적으로 VCPO는 수학, 일반 추론 및 도구 사용 작업 전반에서 비동기 훈련의 견고성을 실질적으로 향상시키며, 마스킹/클리핑 안정화 기법 및 알고리즘 변형을 포괄하는 광범위한 베이스라인을 능가한다. 이 기법은 동기식 훈련의 성능과 필적하면서도 긴 문맥 및 다중 턴 훈련 시간을 2.5$\times$ 단축시키며, 정책 경사 분산에 대한 명시적 제어가 대규모 환경에서 신뢰할 수 있는 비동기 RL의 핵심임을 입증한다.

Original Abstract

Reinforcement learning (RL) is widely used to improve large language models on reasoning tasks, and asynchronous RL training is attractive because it increases end-to-end throughput. However, for widely adopted critic-free policy-gradient methods such as REINFORCE and GRPO, high asynchrony makes the policy-gradient estimator markedly $\textbf{higher variance}$: training on stale rollouts creates heavy-tailed importance ratios, causing a small fraction of samples to dominate updates. This amplification makes gradients noisy and learning unstable relative to matched on-policy training. Across math and general reasoning benchmarks, we find collapse is reliably predicted by effective sample size (ESS) and unstable gradient norms. Motivated by this diagnosis, we propose $\textbf{V}$ariance $\textbf{C}$ontrolled $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{VCPO}$), a general stabilization method for REINFORCE/GRPO-style algorithms that (i) scales learning rate based on effective sample size to dampen unreliable updates, and (ii) applies a closed-form minimum-variance baseline for the off-policy setting, avoiding an auxiliary value model and adding minimal overhead. Empirically, VCPO substantially improves robustness for asynchronous training across math, general reasoning, and tool-use tasks, outperforming a broad suite of baselines spanning masking/clipping stabilizers and algorithmic variants. This reduces long-context, multi-turn training time by 2.5$\times$ while matching synchronous performance, demonstrating that explicit control of policy-gradient variance is key for reliable asynchronous RL at scale.

1 Citations
0 Influential
5 Altmetric
26.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!