적응적 경계 클리핑 GRPO: 안정적이고 일반화 가능한 학습을 위한 경계 비율 보장
Adaptive-Boundary-Clipping GRPO: Ensuring Bounded Ratios for Stable and Generalizable Training
그룹 상대 정책 최적화(GRPO)는 대규모 언어 모델(LLM)을 활용한 강화 학습에서 인기 있는 알고리즘으로 부상했습니다. 그러나 GRPO의 클리핑 메커니즘을 분석한 결과, 특정 시나리오에서 최적이 아니라는 점을 발견했습니다. 적절한 수정 사항을 적용하면 GRPO를 크게 개선하여 유연성과 일반화 성능을 향상시킬 수 있습니다. 이에 따라, 본 논문에서는 원래 GRPO 프레임워크의 비대칭적이고 적응적인 개선 버전인 Adaptive-Boundary-Clipping GRPO (ABC-GRPO)를 제안합니다. 우리는 Qwen3 LLM을 사용한 수학적 추론 작업에서 ABC-GRPO가 표준 GRPO보다 우수한 성능을 달성한다는 것을 보여줍니다. 또한, ABC-GRPO는 훈련 과정 전반에 걸쳐 훨씬 높은 엔트로피를 유지하여 모델의 탐색 능력을 보존하고 조기 수렴을 완화합니다. 구현 코드는 온라인에서 제공되어 재현성을 돕습니다: https://github.com/chi2liu/ABC-GRPO.
Group Relative Policy Optimization (GRPO) has emerged as a popular algorithm for reinforcement learning with large language models (LLMs). However, upon analyzing its clipping mechanism, we argue that it is suboptimal in certain scenarios. With appropriate modifications, GRPO can be significantly enhanced to improve both flexibility and generalization. To this end, we propose Adaptive-Boundary-Clipping GRPO (ABC-GRPO), an asymmetric and adaptive refinement of the original GRPO framework. We demonstrate that ABC-GRPO achieves superior performance over standard GRPO on mathematical reasoning tasks using the Qwen3 LLMs. Moreover, ABC-GRPO maintains substantially higher entropy throughout training, thereby preserving the model's exploration capacity and mitigating premature convergence. The implementation code is available online to ease reproducibility https://github.com/chi2liu/ABC-GRPO.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.