덜 훈련하고, 더 배우기: 그룹 기반 강화 학습을 위한 적응형 효율적인 롤아웃 최적화
Train Less, Learn More: Adaptive Efficient Rollout Optimization for Group-Based Reinforcement Learning
강화 학습(RL)은 대규모 언어 모델(LLM)의 사후 훈련에서 중요한 역할을 합니다. 기존 방법 중 그룹 상대 정책 최적화(GRPO)는 널리 사용되며, 특히 검증 가능한 보상을 갖는 강화 학습(RLVR) 미세 조정을 위해 활용됩니다. GRPO에서 각 쿼리는 LLM에게 고정된 그룹 크기 $N$을 가진 롤아웃 그룹을 생성하도록 요청합니다. 그룹 내의 모든 롤아웃이 동일한 결과를 공유할 때(모두 정답 또는 모두 오답인 경우), 그룹 정규화된 이점은 0이 되어 기울기 신호를 생성하지 못하고 미세 조정 계산 자원을 낭비합니다. 본 논문에서는 GRPO의 개선된 방법인 적응형 효율적인 롤아웃 최적화(AERO)를 소개합니다. AERO는 적응형 롤아웃 전략을 사용하고, 전략적으로 롤아웃을 제거하는 선택적 거부 방식을 적용하며, 0 이점 영역을 방지하기 위해 베이지안 사후 분포를 유지합니다. 세 가지 모델 구성(Qwen2.5-Math-1.5B, Qwen2.5-7B, Qwen2.5-7B-Instruct)에서 AERO는 성능을 희생하지 않고 계산 효율성을 향상시킵니다. 동일한 총 롤아웃 예산 하에서, AERO는 총 훈련 계산량을 약 48% 줄이고, 평균적으로 단계별 실행 시간을 약 45% 단축합니다. 상당한 계산량 감소에도 불구하고, AERO는 GRPO와 동등하거나 더 나은 Pass@8 및 Avg@8 성능을 보여주며, RL 기반 LLM 정렬을 위한 실용적이고 확장 가능하며 계산 효율적인 전략을 제시합니다.
Reinforcement learning (RL) plays a central role in large language model (LLM) post-training. Among existing approaches, Group Relative Policy Optimization (GRPO) is widely used, especially for RL with verifiable rewards (RLVR) fine-tuning. In GRPO, each query prompts the LLM to generate a group of rollouts with a fixed group size $N$. When all rollouts in a group share the same outcome, either all correct or all incorrect, the group-normalized advantages become zero, yielding no gradient signal and wasting fine-tuning compute. We introduce Adaptive Efficient Rollout Optimization (AERO), an enhancement of GRPO. AERO uses an adaptive rollout strategy, applies selective rejection to strategically prune rollouts, and maintains a Bayesian posterior to prevent zero-advantage dead zones. Across three model configurations (Qwen2.5-Math-1.5B, Qwen2.5-7B, and Qwen2.5-7B-Instruct), AERO improves compute efficiency without sacrificing performance. Under the same total rollout budget, AERO reduces total training compute by about 48% while shortening wall-clock time per step by about 45% on average. Despite the substantial reduction in compute, AERO matches or improves Pass@8 and Avg@8 over GRPO, demonstrating a practical, scalable, and compute-efficient strategy for RL-based LLM alignment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.