요구사항 기반 커리큘럼 강화 학습을 통한 LLM 코드 생성 성능 향상
Improving LLM Code Generation via Requirement-Aware Curriculum Reinforcement Learning
자동으로 주어진 프로그래밍 요구사항으로부터 소스 코드를 생성하는 코드 생성은 소프트웨어 개발 효율성을 크게 향상시킬 수 있는 잠재력을 가지고 있습니다. 대규모 언어 모델(LLM)의 빠른 발전과 함께, LLM 기반 코드 생성은 학계와 산업계 모두에서 광범위한 관심을 받고 있습니다. 그러나 프로그래밍 요구사항이 점점 복잡해짐에 따라, 기존 LLM은 여전히 상당한 성능 한계를 보입니다. 이러한 문제를 해결하기 위해, 최근 연구에서는 LLM 코드 생성 성능을 향상시키기 위한 학습 기반 커리큘럼 강화 학습(CRL) 전략을 제안했습니다. 기존 CRL 방법은 효과적이지만, 요구사항 난이도 인식 불일치, 요구사항 난이도 최적화 부재, 그리고 최적화되지 않은 커리큘럼 샘플링 전략과 같은 여러 가지 제한 사항을 가지고 있습니다. CRL 기반 코드 생성에서 프로그래밍 요구사항은 모델의 유일한 입력으로 사용되므로, 그 품질과 난이도는 학습 효과에 매우 중요합니다. 소프트웨어 요구사항 공학의 통찰력을 바탕으로, 우리는 LLM 기반 코드 생성을 향상시키기 위한 새로운 요구사항 기반 커리큘럼 강화 학습 프레임워크인 RECRL을 제안합니다. RECRL은 모델별 요구사항 난이도를 자동으로 인식하고, 학습 데이터 활용도를 높이기 위해 어려운 요구사항을 최적화하며, 부드럽게 변하는 난이도를 가진 학습 배치 생성을 위해 적응형 커리큘럼 샘플링 전략을 사용합니다. 다섯 개의 최첨단 LLM을 사용하여 다섯 가지 널리 사용되는 코드 생성 벤치마크에서 다섯 가지 최첨단 기준 방법과 비교한 광범위한 실험 결과는 RECRL의 상당한 효과를 보여줍니다. 예를 들어, RECRL은 모든 최첨단 기준 방법보다 평균 Pass@1 성능을 1.23%에서 5.62% 향상시켰습니다.
Code generation, which aims to automatically generate source code from given programming requirements, has the potential to substantially improve software development efficiency. With the rapid advancement of large language models (LLMs), LLM-based code generation has attracted widespread attention from both academia and industry. However, as programming requirements become increasingly complex, existing LLMs still exhibit notable performance limitations. To address this challenge, recent studies have proposed training-based curriculum reinforcement learning (CRL) strategies to improve LLM code generation performance. Despite their effectiveness, existing CRL approaches suffer from several limitations, including misaligned requirement difficulty perception, the absence of requirement difficulty optimization, and suboptimal curriculum sampling strategies. In CRL-based code generation, programming requirements serve as the sole input to the model, making their quality and difficulty critical to training effectiveness. Motivated by insights from software requirements engineering, we propose RECRL, a novel requirement-aware curriculum reinforcement learning framework for enhancing LLM-based code generation. RECRL automatically perceives model-specific requirement difficulty, optimizes challenging requirements to improve training data utilization, and employs an adaptive curriculum sampling strategy to construct training batches with smoothly varying difficulty. Extensive experiments on five state-of-the-art LLMs across five widely-used code generation benchmarks by comparing with five state-of-the-art baselines, demonstrate the significant effectiveness of RECRL. For example, RECRL achieves an average Pass@1 improvement of 1.23%-5.62% over all state-of-the-art baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.