스케줄 및 교정: 유틸리티 기반의 다중 작업 강화 학습을 통한 코드 LLM 최적화
Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs
검증 가능한 보상을 활용한 강화 학습(RL)은 코딩 작업을 위한 LLM의 사후 훈련에 효과적인 것으로 입증되었지만, 개별 작업별 특화 모델을 배포하는 데는 작업 수에 따라 비용이 증가하므로, 통합된 다중 작업 RL(MTRL) 접근 방식이 필요합니다. 그러나 기존의 MTRL 방법은 모든 코딩 작업을 동일하게 취급하며, 공유된 최적화 전략 하에 고정된 데이터 교육 과정을 사용하므로, 다중 작업 훈련의 효과가 제한됩니다. 이러한 한계점을 해결하기 위해, 본 논문에서는 작업 유틸리티를 중심으로 한 다중 작업 코드 강화 학습 프레임워크인 ASTOR를 제안합니다. ASTOR는 각 작업의 학습 잠재력과 작업 간의 시너지 효과를 나타내는 신호인 작업 유틸리티를 중심으로, 다음과 같은 두 가지 모듈로 구성됩니다. 1) 계층적 유틸리티 기반 데이터 스케줄링 모듈은 계층적으로 교육 예산을 할당하고, 유용한 프롬프트를 우선적으로 사용하여 교육을 가장 가치 있는 데이터로 유도합니다. 2) 적응적 유틸리티 기반 정책 최적화 모듈은 각 작업의 현재 훈련 상태에 맞춰 작업별 KL 정규화를 동적으로 조정합니다. 널리 사용되는 두 가지 LLM을 사용하여 4가지 대표적인 코딩 작업에 대한 실험 결과, ASTOR는 단일 모델의 성능을 모든 작업에서 일관되게 향상시키며, 최고 성능의 작업별 특화 모델보다 9.0%~9.5% 더 뛰어나고, 가장 강력한 MTRL 기준 모델보다 7.5%~12.8% 더 우수한 성능을 보였습니다.
Reinforcement learning (RL) with verifiable rewards has proven effective at post-training LLMs for coding, yet deploying separate task-specific specialists incurs costs that scale with the number of tasks, motivating a unified multi-task RL (MTRL) approach. However, existing MTRL methods treat all coding tasks uniformly, relying on fixed data curricula under a shared optimization strategy, ultimately limiting the effectiveness of multi-task training. To address these limitations, we propose ASTOR, a multi-tASk code reinforcement learning framework via uTility-driven coORdination. Centered on task utility, a signal capturing each task learning potential and cross-task synergy, ASTOR comprises two coupled modules: 1) Hierarchical Utility-Routed Data Scheduling module hierarchically allocates training budget and prioritizes informative prompts, steering training toward the most valuable data and 2) Adaptive Utility-Calibrated Policy Optimization module dynamically scales per-task KL regularization, matching update constraints to each tasks current training state. Experiments on two widely-used LLMs across four representative coding tasks demonstrate that ASTOR consistently improves a single model across all tasks, outperforming the best task-specific specialist by 9.0%-9.5% and surpassing the strongest MTRL baseline by 7.5%-12.8%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.