2602.03048v3 Feb 03, 2026 cs.LG

CoBA-RL: 강화 학습에서 LLM의 능력 기반 예산 할당

CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

Yu Yang
Yu Yang
Citations: 2
h-index: 1
Xunliang Cai
Xunliang Cai
Citations: 2
h-index: 1
Yi-Kai Zhang
Yi-Kai Zhang
Citations: 8
h-index: 1
Zishan Xu
Zishan Xu
Citations: 10
h-index: 2
Hui Su
Hui Su
Citations: 64
h-index: 3
Zhiyuan Yao
Zhiyuan Yao
Citations: 18
h-index: 3
Yueqing Sun
Yueqing Sun
Citations: 8
h-index: 1
Qi Gu
Qi Gu
Citations: 113
h-index: 1
Yuxin Chen
Yuxin Chen
Citations: 1
h-index: 1
Tianhao Hu
Tianhao Hu
Citations: 118
h-index: 4

검증 가능한 보상을 활용한 강화 학습(RLVR)은 LLM의 추론 능력을 향상시키는 핵심적인 방법으로 부상했습니다. 그러나 Group Relative Policy Optimization(GRPO)과 같은 일반적인 프레임워크는 일반적으로 균일한 롤아웃 예산을 사용하므로 자원 효율성이 떨어집니다. 또한, 기존의 적응적 방법은 종종 작업 성공률과 같은 인스턴스 수준의 지표에 의존하며, 모델의 동적인 학습 상태를 제대로 반영하지 못합니다. 이러한 한계점을 해결하기 위해, 모델의 진화하는 능력에 따라 롤아웃 예산을 적응적으로 할당하는 강화 학습 알고리즘인 CoBA-RL을 제안합니다. 구체적으로, CoBA-RL은 능력 기반 가치 함수를 사용하여 작업을 잠재적인 학습 이득에 매핑하고, 힙 기반의 탐욕적 전략을 사용하여 계산 자원의 분포를 높은 학습 가치를 가진 샘플에 효율적으로 조정합니다. 광범위한 실험 결과, 제안하는 방법이 탐색과 활용 간의 균형을 효과적으로 조절하여 여러 가지 어려운 벤치마크에서 일관된 일반화 성능 향상을 달성함을 보여줍니다. 이러한 결과는 샘플의 학습 가치를 정량화하고 예산 할당을 최적화하는 것이 LLM의 사후 학습 효율성을 향상시키는 데 매우 중요함을 강조합니다.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a key approach for enhancing LLM reasoning. However, standard frameworks like Group Relative Policy Optimization (GRPO) typically employ a uniform rollout budget, leading to resource inefficiency. Moreover, existing adaptive methods often rely on instance-level metrics, such as task pass rates, failing to capture the model's dynamic learning state. To address these limitations, we propose CoBA-RL, a reinforcement learning algorithm designed to adaptively allocate rollout budgets based on the model's evolving capability. Specifically, CoBA-RL utilizes a Capability-Oriented Value function to map tasks to their potential training gains and employs a heap-based greedy strategy to efficiently self-calibrate the distribution of computational resources to samples with high training value. Extensive experiments demonstrate that our approach effectively orchestrates the trade-off between exploration and exploitation, delivering consistent generalization improvements across multiple challenging benchmarks. These findings underscore that quantifying sample training value and optimizing budget allocation are pivotal for advancing LLM post-training efficiency.

1 Citations
0 Influential
2 Altmetric
11.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!