2605.06111v1 May 07, 2026 cs.SE

스케줄 및 교정: 유틸리티 기반의 다중 작업 강화 학습을 통한 코드 LLM 최적화

Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

Xiaowen Chu
Xiaowen Chu
Citations: 802
h-index: 17
Cuiyun Gao
Cuiyun Gao
Citations: 264
h-index: 8
Yujia Chen
Yujia Chen
Citations: 15
h-index: 2
Yanghui Ye
Yanghui Ye
Citations: 257
h-index: 10
Yuchi Ma
Yuchi Ma
Citations: 217
h-index: 1

검증 가능한 보상을 활용한 강화 학습(RL)은 코딩 작업을 위한 LLM의 사후 훈련에 효과적인 것으로 입증되었지만, 개별 작업별 특화 모델을 배포하는 데는 작업 수에 따라 비용이 증가하므로, 통합된 다중 작업 RL(MTRL) 접근 방식이 필요합니다. 그러나 기존의 MTRL 방법은 모든 코딩 작업을 동일하게 취급하며, 공유된 최적화 전략 하에 고정된 데이터 교육 과정을 사용하므로, 다중 작업 훈련의 효과가 제한됩니다. 이러한 한계점을 해결하기 위해, 본 논문에서는 작업 유틸리티를 중심으로 한 다중 작업 코드 강화 학습 프레임워크인 ASTOR를 제안합니다. ASTOR는 각 작업의 학습 잠재력과 작업 간의 시너지 효과를 나타내는 신호인 작업 유틸리티를 중심으로, 다음과 같은 두 가지 모듈로 구성됩니다. 1) 계층적 유틸리티 기반 데이터 스케줄링 모듈은 계층적으로 교육 예산을 할당하고, 유용한 프롬프트를 우선적으로 사용하여 교육을 가장 가치 있는 데이터로 유도합니다. 2) 적응적 유틸리티 기반 정책 최적화 모듈은 각 작업의 현재 훈련 상태에 맞춰 작업별 KL 정규화를 동적으로 조정합니다. 널리 사용되는 두 가지 LLM을 사용하여 4가지 대표적인 코딩 작업에 대한 실험 결과, ASTOR는 단일 모델의 성능을 모든 작업에서 일관되게 향상시키며, 최고 성능의 작업별 특화 모델보다 9.0%~9.5% 더 뛰어나고, 가장 강력한 MTRL 기준 모델보다 7.5%~12.8% 더 우수한 성능을 보였습니다.

Original Abstract

Reinforcement learning (RL) with verifiable rewards has proven effective at post-training LLMs for coding, yet deploying separate task-specific specialists incurs costs that scale with the number of tasks, motivating a unified multi-task RL (MTRL) approach. However, existing MTRL methods treat all coding tasks uniformly, relying on fixed data curricula under a shared optimization strategy, ultimately limiting the effectiveness of multi-task training. To address these limitations, we propose ASTOR, a multi-tASk code reinforcement learning framework via uTility-driven coORdination. Centered on task utility, a signal capturing each task learning potential and cross-task synergy, ASTOR comprises two coupled modules: 1) Hierarchical Utility-Routed Data Scheduling module hierarchically allocates training budget and prioritizes informative prompts, steering training toward the most valuable data and 2) Adaptive Utility-Calibrated Policy Optimization module dynamically scales per-task KL regularization, matching update constraints to each tasks current training state. Experiments on two widely-used LLMs across four representative coding tasks demonstrate that ASTOR consistently improves a single model across all tasks, outperforming the best task-specific specialist by 9.0%-9.5% and surpassing the strongest MTRL baseline by 7.5%-12.8%.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!