어떻게 할당하고, 어떻게 학습할 것인가? 정책 최적화를 위한 동적 롤아웃 할당 및 어드밴티지 변조
How to Allocate, How to Learn? Dynamic Rollout Allocation and Advantage Modulation for Policy Optimization
검증 가능한 보상을 동반한 강화학습(RLVR)은 대형 언어 모델(LLM) 추론에 효과적임이 입증되었으나, 현재의 방법들은 자원 할당 및 정책 최적화 역학에서 다음과 같은 주요 한계에 직면해 있다: (i) 균일한 롤아웃 할당은 문제들 간의 그래디언트 분산 이질성을 무시하며, (ii) 소프트맥스 정책 구조는 신뢰도가 높은 올바른 행동에 대해 그래디언트 감쇠를 유발하는 반면, 과도한 그래디언트 업데이트는 학습을 불안정하게 할 수 있다. 따라서 우리는 이론적 기반을 갖춘 이원적 최적화 프레임워크인 DynaMO를 제안한다. 시퀀스 수준에서는 균일 할당이 비최적임을 증명하고 제1원리로부터 분산을 최소화하는 할당을 도출하여, 베르누이 분산을 그래디언트 정보성의 계산 가능한 대리 지표로 확립한다. 토큰 수준에서는 그래디언트 크기 경계에 대한 이론적 분석에 기반하여 그래디언트 인식 어드밴티지 변조(gradient-aware advantage modulation)를 개발한다. 본 프레임워크는 신뢰도가 높은 올바른 행동의 그래디언트 감쇠를 보완하는 동시에, 엔트로피 변화를 계산 가능한 지표로 활용하여 과도한 업데이트 크기를 안정화한다. 다양한 수학적 추론 벤치마크에 대한 광범위한 실험을 통해 강력한 RLVR 베이스라인을 넘어서는 일관된 성능 향상을 입증하였다. 구현 코드는 다음 링크에서 확인할 수 있다: \href{https://anonymous.4open.science/r/dynamo-680E/README.md}{https://anonymous.4open.science/r/dynamo}.
Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for Large Language Model (LLM) reasoning, yet current methods face key challenges in resource allocation and policy optimization dynamics: (i) uniform rollout allocation ignores gradient variance heterogeneity across problems, and (ii) the softmax policy structure causes gradient attenuation for high-confidence correct actions, while excessive gradient updates may destabilize training. Therefore, we propose DynaMO, a theoretically-grounded dual-pronged optimization framework. At the sequence level, we prove that uniform allocation is suboptimal and derive variance-minimizing allocation from the first principle, establishing Bernoulli variance as a computable proxy for gradient informativeness. At the token level, we develop gradient-aware advantage modulation grounded in theoretical analysis of gradient magnitude bounds. Our framework compensates for gradient attenuation of high-confidence correct actions while utilizing entropy changes as computable indicators to stabilize excessive update magnitudes. Extensive experiments conducted on a diverse range of mathematical reasoning benchmarks demonstrate consistent improvements over strong RLVR baselines. Our implementation is available at: \href{https://anonymous.4open.science/r/dynamo-680E/README.md}{https://anonymous.4open.science/r/dynamo}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.