기울기 보존 관점에서 본 유연한 엔트로피 제어: RLVR
Flexible Entropy Control in RLVR with Gradient-Preserving Perspective
검증 가능한 보상을 이용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 중요한 방법으로 부상했습니다. 그러나 지속적인 학습은 종종 정책 엔트로피 붕괴로 이어지는데, 이는 엔트로피의 급격한 감소를 초래하여 조기에 과신을 유발하고, 출력 다양성을 감소시키며, 학습을 방해하는 기울기 크기 감소를 일으킵니다. 기울기 보존 클리핑은 이러한 현상에 중요한 영향을 미치지만, 기존의 완화 전략은 대부분 정적이며, 클리핑 메커니즘과 정확한 엔트로피 제어 간의 연결 고리가 부족합니다. 본 논문에서는 기울기 보존 클리핑의 관점에서 강화 학습에서의 엔트로피 제어를 재구성하는 방법을 제안합니다. 먼저, 특정 중요 샘플링 비율 영역이 엔트로피 증가 및 감소에 미치는 영향을 이론적, 실증적으로 검증합니다. 이러한 결과를 바탕으로, 동적 클리핑 임계값을 사용하여 엔트로피를 정확하게 제어하는 새로운 규제 메커니즘을 도입합니다. 또한, 증가 후 감소, 감소-증가-감소, 그리고 진동 감쇠 등 다양한 동적 엔트로피 제어 전략을 설계하고 평가합니다. 실험 결과는 이러한 전략이 엔트로피 붕괴를 효과적으로 완화하고, 여러 벤치마크에서 우수한 성능을 달성함을 보여줍니다.
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.