DISPO: 대규모 언어 모델의 수학적 추론 능력 향상을 위한 강화 학습의 효율성과 안정성 향상
DISPO: Enhancing Training Efficiency and Stability in Reinforcement Learning for Large Language Model Mathematical Reasoning
검증 가능한 보상을 활용한 강화 학습은 특히 수학 분야에서 대규모 언어 모델의 추론 능력을 향상시키는 유망한 방법론으로 부상했습니다. 현재 이 분야의 접근 방식은 명확한 상충 관계를 보입니다. PPO 방식의 방법(예: GRPO/DAPO)은 정책 업데이트에 대한 신뢰 영역 제약을 통해 안정적인 학습을 제공하지만, 학습 속도가 느립니다. 반면, REINFORCE 방식의 방법(예: CISPO)은 학습 효율성이 향상되지만, 신뢰 영역 외부의 기울기를 허용하면서 중요 샘플링 가중치를 제한하기 때문에 성능 불안정성을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 올바른 응답과 잘못된 응답에 대한 중요 샘플링 가중치의 상한 및 하한 클리핑을 분리하여 4가지 제어 가능한 정책 업데이트 방식을 제공하는 간단하면서도 효과적인 REINFORCE 방식의 알고리즘인 DISPO를 제안합니다. 표적 분석을 통해, 각 방식이 학습에 미치는 영향을 파악했습니다. 올바른 응답의 경우, 가중치 >1은 평균 토큰 엔트로피(즉, 탐색)를 증가시키고, 가중치 <1은 이를 감소시킵니다(즉, 증류). 둘 다 유익하지만, 과도하게 사용하면 점진적인 성능 저하를 유발합니다. 잘못된 응답의 경우, 지나치게 제한적인 클리핑은 반복적인 출력(가중치 >1인 경우) 또는 응답 길이의 소실(가중치 <1인 경우)을 통해 갑작스러운 성능 저하를 유발합니다. DISPO는 이 4가지 클리핑 매개변수를 개별적으로 조정하여 탐색-증류 균형을 유지하고, 재앙적인 실패를 방지하며, AIME'24에서 61.04%의 성능을 달성했습니다(CISPO는 55.42%, DAPO는 50.21%). 다양한 벤치마크 및 모델에서 유사한 성능 향상을 보였습니다.
Reinforcement learning with verifiable rewards has emerged as a promising paradigm for enhancing the reasoning capabilities of large language models particularly in mathematics. Current approaches in this domain present a clear trade-off: PPO-style methods (e.g., GRPO/DAPO) offer training stability but exhibit slow learning trajectories due to their trust-region constraints on policy updates, while REINFORCE-style approaches (e.g., CISPO) demonstrate improved learning efficiency but suffer from performance instability as they clip importance sampling weights while still permitting non-zero gradients outside the trust-region. To address these limitations, we introduce DISPO, a simple yet effective REINFORCE-style algorithm that decouples the up-clipping and down-clipping of importance sampling weights for correct and incorrect responses, yielding four controllable policy update regimes. Through targeted ablations, we uncover how each regime impacts training: for correct responses, weights >1 increase the average token entropy (i.e., exploration) while weights <1 decrease it (i.e., distillation) -- both beneficial but causing gradual performance degradation when excessive. For incorrect responses, overly restrictive clipping triggers sudden performance collapse through repetitive outputs (when weights >1) or vanishing response lengths (when weights <1). By separately tuning these four clipping parameters, DISPO maintains the exploration-distillation balance while preventing catastrophic failures, achieving 61.04% on AIME'24 (vs. 55.42% CISPO and 50.21% DAPO) with similar gains across various benchmarks and models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.