2602.00983v1 Feb 01, 2026 cs.CL

DISPO: 대규모 언어 모델의 수학적 추론 능력 향상을 위한 강화 학습의 효율성과 안정성 향상

DISPO: Enhancing Training Efficiency and Stability in Reinforcement Learning for Large Language Model Mathematical Reasoning

Ruida Zhou
Ruida Zhou
Citations: 5
h-index: 1
Batuhan K. Karaman
Batuhan K. Karaman
Citations: 75
h-index: 5
Aditya Rawal
Aditya Rawal
Citations: 517
h-index: 8
Suhaila Shakiah
Suhaila Shakiah
Citations: 204
h-index: 6
Mohammad Ghavamzadeh
Mohammad Ghavamzadeh
Citations: 12
h-index: 1
Mingyi Hong
Mingyi Hong
Citations: 0
h-index: 0
Arijit Biswas
Arijit Biswas
Citations: 0
h-index: 0

검증 가능한 보상을 활용한 강화 학습은 특히 수학 분야에서 대규모 언어 모델의 추론 능력을 향상시키는 유망한 방법론으로 부상했습니다. 현재 이 분야의 접근 방식은 명확한 상충 관계를 보입니다. PPO 방식의 방법(예: GRPO/DAPO)은 정책 업데이트에 대한 신뢰 영역 제약을 통해 안정적인 학습을 제공하지만, 학습 속도가 느립니다. 반면, REINFORCE 방식의 방법(예: CISPO)은 학습 효율성이 향상되지만, 신뢰 영역 외부의 기울기를 허용하면서 중요 샘플링 가중치를 제한하기 때문에 성능 불안정성을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 올바른 응답과 잘못된 응답에 대한 중요 샘플링 가중치의 상한 및 하한 클리핑을 분리하여 4가지 제어 가능한 정책 업데이트 방식을 제공하는 간단하면서도 효과적인 REINFORCE 방식의 알고리즘인 DISPO를 제안합니다. 표적 분석을 통해, 각 방식이 학습에 미치는 영향을 파악했습니다. 올바른 응답의 경우, 가중치 >1은 평균 토큰 엔트로피(즉, 탐색)를 증가시키고, 가중치 <1은 이를 감소시킵니다(즉, 증류). 둘 다 유익하지만, 과도하게 사용하면 점진적인 성능 저하를 유발합니다. 잘못된 응답의 경우, 지나치게 제한적인 클리핑은 반복적인 출력(가중치 >1인 경우) 또는 응답 길이의 소실(가중치 <1인 경우)을 통해 갑작스러운 성능 저하를 유발합니다. DISPO는 이 4가지 클리핑 매개변수를 개별적으로 조정하여 탐색-증류 균형을 유지하고, 재앙적인 실패를 방지하며, AIME'24에서 61.04%의 성능을 달성했습니다(CISPO는 55.42%, DAPO는 50.21%). 다양한 벤치마크 및 모델에서 유사한 성능 향상을 보였습니다.

Original Abstract

Reinforcement learning with verifiable rewards has emerged as a promising paradigm for enhancing the reasoning capabilities of large language models particularly in mathematics. Current approaches in this domain present a clear trade-off: PPO-style methods (e.g., GRPO/DAPO) offer training stability but exhibit slow learning trajectories due to their trust-region constraints on policy updates, while REINFORCE-style approaches (e.g., CISPO) demonstrate improved learning efficiency but suffer from performance instability as they clip importance sampling weights while still permitting non-zero gradients outside the trust-region. To address these limitations, we introduce DISPO, a simple yet effective REINFORCE-style algorithm that decouples the up-clipping and down-clipping of importance sampling weights for correct and incorrect responses, yielding four controllable policy update regimes. Through targeted ablations, we uncover how each regime impacts training: for correct responses, weights >1 increase the average token entropy (i.e., exploration) while weights <1 decrease it (i.e., distillation) -- both beneficial but causing gradual performance degradation when excessive. For incorrect responses, overly restrictive clipping triggers sudden performance collapse through repetitive outputs (when weights >1) or vanishing response lengths (when weights <1). By separately tuning these four clipping parameters, DISPO maintains the exploration-distillation balance while preventing catastrophic failures, achieving 61.04% on AIME'24 (vs. 55.42% CISPO and 50.21% DAPO) with similar gains across various benchmarks and models.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!