2602.19208v1 Feb 22, 2026 cs.LG

어떻게 할당하고, 어떻게 학습할 것인가? 정책 최적화를 위한 동적 롤아웃 할당 및 어드밴티지 변조

How to Allocate, How to Learn? Dynamic Rollout Allocation and Advantage Modulation for Policy Optimization

Ke Zeng
Ke Zeng
Citations: 35
h-index: 3
Chaowen Hu
Chaowen Hu
Citations: 2
h-index: 1
Lu Pan
Lu Pan
Citations: 13
h-index: 1
Xunliang Cai
Xunliang Cai
Citations: 35
h-index: 3
Yangyi Fang
Yangyi Fang
Citations: 22
h-index: 2
Cong Qin
Cong Qin
Citations: 21
h-index: 3
H. Shi
H. Shi
Citations: 76
h-index: 3
Jiaye Lin
Jiaye Lin
Citations: 43
h-index: 3
Xiao Fu
Xiao Fu
Citations: 15
h-index: 2

검증 가능한 보상을 동반한 강화학습(RLVR)은 대형 언어 모델(LLM) 추론에 효과적임이 입증되었으나, 현재의 방법들은 자원 할당 및 정책 최적화 역학에서 다음과 같은 주요 한계에 직면해 있다: (i) 균일한 롤아웃 할당은 문제들 간의 그래디언트 분산 이질성을 무시하며, (ii) 소프트맥스 정책 구조는 신뢰도가 높은 올바른 행동에 대해 그래디언트 감쇠를 유발하는 반면, 과도한 그래디언트 업데이트는 학습을 불안정하게 할 수 있다. 따라서 우리는 이론적 기반을 갖춘 이원적 최적화 프레임워크인 DynaMO를 제안한다. 시퀀스 수준에서는 균일 할당이 비최적임을 증명하고 제1원리로부터 분산을 최소화하는 할당을 도출하여, 베르누이 분산을 그래디언트 정보성의 계산 가능한 대리 지표로 확립한다. 토큰 수준에서는 그래디언트 크기 경계에 대한 이론적 분석에 기반하여 그래디언트 인식 어드밴티지 변조(gradient-aware advantage modulation)를 개발한다. 본 프레임워크는 신뢰도가 높은 올바른 행동의 그래디언트 감쇠를 보완하는 동시에, 엔트로피 변화를 계산 가능한 지표로 활용하여 과도한 업데이트 크기를 안정화한다. 다양한 수학적 추론 벤치마크에 대한 광범위한 실험을 통해 강력한 RLVR 베이스라인을 넘어서는 일관된 성능 향상을 입증하였다. 구현 코드는 다음 링크에서 확인할 수 있다: \href{https://anonymous.4open.science/r/dynamo-680E/README.md}{https://anonymous.4open.science/r/dynamo}.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for Large Language Model (LLM) reasoning, yet current methods face key challenges in resource allocation and policy optimization dynamics: (i) uniform rollout allocation ignores gradient variance heterogeneity across problems, and (ii) the softmax policy structure causes gradient attenuation for high-confidence correct actions, while excessive gradient updates may destabilize training. Therefore, we propose DynaMO, a theoretically-grounded dual-pronged optimization framework. At the sequence level, we prove that uniform allocation is suboptimal and derive variance-minimizing allocation from the first principle, establishing Bernoulli variance as a computable proxy for gradient informativeness. At the token level, we develop gradient-aware advantage modulation grounded in theoretical analysis of gradient magnitude bounds. Our framework compensates for gradient attenuation of high-confidence correct actions while utilizing entropy changes as computable indicators to stabilize excessive update magnitudes. Extensive experiments conducted on a diverse range of mathematical reasoning benchmarks demonstrate consistent improvements over strong RLVR baselines. Our implementation is available at: \href{https://anonymous.4open.science/r/dynamo-680E/README.md}{https://anonymous.4open.science/r/dynamo}.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!