IsoCompute 플레이북: LLM 강화 학습을 위한 샘플링 연산 최적화
IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL
대규모 언어 모델(LLM)의 사전 훈련을 위한 연산 할당은 스케일링 법칙을 통해 안내되지만, 대규모 언어 모델(LLM)의 강화 학습(RL) 후훈련에 대한 유사한 지침은 아직 제대로 이해되지 못하고 있습니다. 본 연구에서는 LLM의 온-정책 강화 학습 방법에서 샘플링 연산의 최적 할당을 연구하며, 스케일링을 문제 해결에 사용되는 병렬 실행 횟수, 배치당 문제 수, 업데이트 단계 수의 세 가지 자원에 대한 연산 제약 최적화 문제로 정의합니다. 연구 결과, 병렬 실행 횟수는 연산 예산 증가에 따라 예측 가능한 방식으로 증가하지만, 일정 수준 이상에서는 포화되는 경향을 보였습니다. 이러한 경향은 쉬운 문제와 어려운 문제 모두에서 나타나지만, 그 원인은 다릅니다. 쉬운 문제에서는 해의 정교화가, 어려운 문제에서는 탐색 범위 확장이 주요 원인입니다. 또한, 병렬 실행 횟수 증가는 문제 간의 간섭을 완화하는 효과가 있는 반면, 배치당 문제 수는 주로 훈련 안정성에 영향을 미치며, 넓은 범위 내에서 선택될 수 있습니다. 기본 모델 및 데이터 분포에 대한 검증을 통해, 본 연구의 결과는 강화 학습 스케일링 법칙을 실질적인 할당 규칙으로 재정의하고, 연산 효율적인 LLM 강화 학습 후훈련을 위한 실용적인 지침을 제공합니다.
While scaling laws guide compute allocation for LLM pre-training, analogous prescriptions for reinforcement learning (RL) post-training of large language models (LLMs) remain poorly understood. We study the compute-optimal allocation of sampling compute for on-policy RL methods in LLMs, framing scaling as a compute-constrained optimization over three resources: parallel rollouts per problem, number of problems per batch, and number of update steps. We find that the compute-optimal number of parallel rollouts per problem increases predictably with compute budget and then saturates. This trend holds across both easy and hard problems, though driven by different mechanisms: solution sharpening on easy problems and coverage expansion on hard problems. We further show that increasing the number of parallel rollouts mitigates interference across problems, while the number of problems per batch primarily affects training stability and can be chosen within a broad range. Validated across base models and data distributions, our results recast RL scaling laws as prescriptive allocation rules and provide practical guidance for compute-efficient LLM RL post-training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.