2603.14389v1 Mar 15, 2026 cs.LG

logπ에서 π로: 양방향 독립 감쇠를 통한 확률 경사 중량의 발산을 억제하는 소프트 클리핑

From $\boldsymbol{\logπ}$ to $\boldsymbolπ$: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight

Ke Zeng
Ke Zeng
Citations: 35
h-index: 3
Chaowen Hu
Chaowen Hu
Citations: 3
h-index: 1
Zekai Shao
Zekai Shao
Citations: 620
h-index: 8
Lu Pan
Lu Pan
Citations: 13
h-index: 1
Yangyi Fang
Yangyi Fang
Citations: 23
h-index: 2
Xiao Fu
Xiao Fu
Citations: 15
h-index: 2
Jiaye Lin
Jiaye Lin
Citations: 17
h-index: 2
Congming Qin
Congming Qin
Citations: 0
h-index: 0
Binbin Zheng
Binbin Zheng
Citations: 1
h-index: 1

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 기여했지만, 최적화 과정은 여전히 불안정합니다. GRPO와 같은 기존 알고리즘은 "하드 클리핑"을 통해 안정성을 확보하지만, 이는 신뢰 영역 외부의 토큰에 대한 경사를 버림으로써 탐색을 저해합니다. 최근의 "소프트 클리핑" 방법은 이러한 경사를 복구하려고 시도하지만, 확률 경사(log_θπ_θ)에 의존하면 확률이 감소함에 따라 중량이 발산하여 LLM 훈련을 불안정하게 만듭니다. 본 연구에서는 확률 자체(∇_θπ_θ)를 더 나은 최적화 도구로 재정의했습니다. 이에 따라, 중요 샘플링 비율에 기반한 독립적인 감쇠 메커니즘을 사용하는 분리된 경사 정책 최적화(DGPO)를 제안합니다. DGPO는 경계 토큰에 비대칭적인 연속적인 감쇠를 적용하여 안정성과 지속적인 탐색 사이의 충돌을 해결합니다. DeepSeek-R1-Distill-Qwen 시리즈 모델(1.5B/7B/14B)에 대한 광범위한 실험 결과, DGPO는 다양한 수학적 벤치마크에서 강력한 기준 모델보다 일관되게 우수한 성능을 보이며, RLVR을 위한 견고하고 확장 가능한 솔루션을 제공합니다. 저희의 코드 및 구현은 다음 주소에서 확인할 수 있습니다: https://github.com/VenomRose-Juri/DGPO-RL.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has catalyzed a leap in Large Language Model (LLM) reasoning, yet its optimization dynamics remain fragile. Standard algorithms like GRPO enforce stability via ``hard clipping'', which inadvertently stifles exploration by discarding gradients of tokens outside the trust region. While recent ``soft clipping'' methods attempt to recover these gradients, they suffer from a critical challenge: relying on log-probability gradient ($\nabla_θ\log π_θ$) yields divergent weights as probabilities vanish, destabilizing LLM training. We rethink this convention by establishing probability gradient ($\nabla_θπ_θ$) as the superior optimization primitive. Accordingly, we propose Decoupled Gradient Policy Optimization (DGPO), which employs a decoupled decay mechanism based on importance sampling ratios. By applying asymmetric, continuous decay to boundary tokens, DGPO resolves the conflict between stability and sustained exploration. Extensive experiments across DeepSeek-R1-Distill-Qwen series models (1.5B/7B/14B) demonstrate that DGPO consistently outperforms strong baselines on various mathematical benchmarks, offering a robust and scalable solution for RLVR. Our code and implementation are available at: https://github.com/VenomRose-Juri/DGPO-RL.

0 Citations
0 Influential
43.143206982445 Altmetric
215.7 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!