CUDA 에이전트: 고성능 CUDA 커널 생성을 위한 대규모 에이전트 기반 강화 학습
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
GPU 커널 최적화는 현대 딥러닝의 기본이지만, 여전히 깊은 하드웨어 전문 지식을 요구하는 고도의 전문적인 작업입니다. 일반적인 프로그래밍에서는 뛰어난 성능을 보이지만, 대규모 언어 모델(LLM)은 torch.compile과 같은 컴파일러 기반 시스템에 비해 CUDA 커널 생성 성능이 경쟁력이 떨어집니다. 기존의 CUDA 코드 생성 방식은 대부분 훈련 없이 성능을 개선하거나, 고정된 다단계 실행-피드백 루프 내에서 모델을 미세 조정하는 방식을 사용하지만, 이러한 방식들은 모델 자체의 CUDA 최적화 능력을 근본적으로 향상시키지 못하여 제한적인 성능 향상만 가져옵니다. 본 논문에서는 대규모 에이전트 기반 강화 학습 시스템인 CUDA Agent를 소개합니다. CUDA Agent는 세 가지 주요 구성 요소를 통해 CUDA 커널 전문 지식을 개발합니다. 첫째, 확장 가능한 데이터 생성 파이프라인을 통해 학습 데이터를 확보합니다. 둘째, 자동 검증 및 프로파일링 기능을 갖춘 CUDA 개발 환경을 통해 신뢰할 수 있는 보상 신호를 제공합니다. 셋째, 안정적인 학습을 가능하게 하는 강화 학습 알고리즘 기법을 적용합니다. CUDA Agent는 KernelBench 데이터셋에서 최첨단 성능을 달성했으며, KernelBench의 Level-1, Level-2, Level-3에서 torch.compile보다 각각 100%, 100%, 92% 더 빠른 속도를 보였습니다. 특히, 가장 어려운 Level-3 설정에서는 Claude Opus 4.5 및 Gemini 3 Pro와 같은 최고 수준의 독점 모델보다 약 40% 더 뛰어난 성능을 보였습니다.
GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.