2602.24286v1 Feb 27, 2026 cs.LG

CUDA 에이전트: 고성능 CUDA 커널 생성을 위한 대규모 에이전트 기반 강화 학습

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

Han Wu
Han Wu
Citations: 4
h-index: 1
Weinan Dai
Weinan Dai
Citations: 1,731
h-index: 4
Qiying Yu
Qiying Yu
Citations: 435
h-index: 5
Huan Gao
Huan Gao
Citations: 8
h-index: 2
Jiahao Li
Jiahao Li
Citations: 59
h-index: 3
Chengquan Jiang
Chengquan Jiang
Citations: 190
h-index: 5
Weiqiang Lou
Weiqiang Lou
Citations: 129
h-index: 4
Yufan Song
Yufan Song
Carnegie Mellon University
Citations: 741
h-index: 5
Hongli Yu
Hongli Yu
Citations: 254
h-index: 4
Jiaze Chen
Jiaze Chen
Citations: 1,982
h-index: 5
Wei Ma
Wei Ma
Citations: 22
h-index: 3
Ya-Qin Zhang
Ya-Qin Zhang
Citations: 74
h-index: 4
Jingjing Liu
Jingjing Liu
Citations: 9
h-index: 2
Mingxuan Wang
Mingxuan Wang
Citations: 1,803
h-index: 7
Xin Liu
Xin Liu
Citations: 132
h-index: 6
Hao Zhou
Hao Zhou
Citations: 190
h-index: 4

GPU 커널 최적화는 현대 딥러닝의 기본이지만, 여전히 깊은 하드웨어 전문 지식을 요구하는 고도의 전문적인 작업입니다. 일반적인 프로그래밍에서는 뛰어난 성능을 보이지만, 대규모 언어 모델(LLM)은 torch.compile과 같은 컴파일러 기반 시스템에 비해 CUDA 커널 생성 성능이 경쟁력이 떨어집니다. 기존의 CUDA 코드 생성 방식은 대부분 훈련 없이 성능을 개선하거나, 고정된 다단계 실행-피드백 루프 내에서 모델을 미세 조정하는 방식을 사용하지만, 이러한 방식들은 모델 자체의 CUDA 최적화 능력을 근본적으로 향상시키지 못하여 제한적인 성능 향상만 가져옵니다. 본 논문에서는 대규모 에이전트 기반 강화 학습 시스템인 CUDA Agent를 소개합니다. CUDA Agent는 세 가지 주요 구성 요소를 통해 CUDA 커널 전문 지식을 개발합니다. 첫째, 확장 가능한 데이터 생성 파이프라인을 통해 학습 데이터를 확보합니다. 둘째, 자동 검증 및 프로파일링 기능을 갖춘 CUDA 개발 환경을 통해 신뢰할 수 있는 보상 신호를 제공합니다. 셋째, 안정적인 학습을 가능하게 하는 강화 학습 알고리즘 기법을 적용합니다. CUDA Agent는 KernelBench 데이터셋에서 최첨단 성능을 달성했으며, KernelBench의 Level-1, Level-2, Level-3에서 torch.compile보다 각각 100%, 100%, 92% 더 빠른 속도를 보였습니다. 특히, 가장 어려운 Level-3 설정에서는 Claude Opus 4.5 및 Gemini 3 Pro와 같은 최고 수준의 독점 모델보다 약 40% 더 뛰어난 성능을 보였습니다.

Original Abstract

GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.

7 Citations
1 Influential
3.5 Altmetric
26.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!