2604.11109v1 Apr 13, 2026 cs.DC

레코드-리믹스-리플레이: 진화적 탐색을 활용한 계층적 GPU 커널 최적화

Record-Remix-Replay: Hierarchical GPU Kernel Optimization using Evolutionary Search

Daniel Nichols
Daniel Nichols
Citations: 118
h-index: 4
Konstantinos Parasyris
Konstantinos Parasyris
Citations: 140
h-index: 6
Caetano Melone
Caetano Melone
Citations: 9
h-index: 2
Tal Ben-Nun
Tal Ben-Nun
Citations: 45
h-index: 3
G. Georgakoudis
G. Georgakoudis
Citations: 2
h-index: 1
Harshitha Menon
Harshitha Menon
Citations: 848
h-index: 16

고성능 컴퓨팅 및 AI 워크로드가 GPU에 점점 더 의존함에 따라, 빠르게 변화하는 하드웨어 세대에 걸쳐 높은 성능을 유지하는 것이 중요한 과제가 되었습니다. 개발자들은 종종 새로운 아키텍처를 최대한 활용하기 위해 과학 응용 프로그램을 튜닝하는 데 몇 달을 소비하며, 알고리즘 설계, 소스 구현, 컴파일러 플래그 및 패스 시퀀스, 커널 실행 매개변수 등 복잡한 최적화 공간을 탐색해야 합니다. 기존 방법은 이러한 공간의 특정 부분, 예를 들어 실행 구성이나 컴파일러 설정 등을 효과적으로 탐색할 수 있지만, 전체 공간을 최적화하려면 여전히 상당한 수준의 전문 지식과 반복적인 수동 노력이 필요합니다. 본 논문에서는 LLM 기반의 진화적 탐색, 베이지안 최적화 및 레코드-리플레이 컴파일 기술을 결합하여 소스 레벨의 구현 선택부터 컴파일러 패스 순서 및 런타임 구성까지 GPU 커널 최적화를 효율적으로 탐색하는 계층적 최적화 프레임워크인 Record-Remix-Replay (R^3)를 제시합니다. 저희의 접근 방식은 후보 평가를 빠르고 확장 가능하게 만들어, 일반적으로 개별적으로 처리되는 최적화 차원을 포괄하는 실용적인 엔드-투-엔드 탐색을 가능하게 합니다. 저희는 Record-Remix-Replay가 커널 매개변수 및 컴파일러 플래그 측면에서 기존 접근 방식보다 전체 과학 응용 프로그램을 더 잘 최적화할 수 있으며, 최신 진화적 탐색 접근 방식보다 거의 한 자릿수 빠르다는 것을 보여줍니다.

Original Abstract

As high-performance computing and AI workloads become increasingly dependent on GPUs, maintaining high performance across rapidly evolving hardware generations has become a major challenge. Developers often spend months tuning scientific applications to fully exploit new architectures, navigating a complex optimization space that spans algorithm design, source implementation, compiler flags and pass sequences, and kernel launch parameters. Existing approaches can effectively search parts of this space in isolation, such as launch configurations or compiler settings, but optimizing across the full space still requires substantial human expertise and iterative manual effort. In this paper, we present Record-Remix-Replay (R^3), a hierarchical optimization framework that combines LLM-driven evolutionary search, Bayesian optimization, and record-replay compilation techniques to efficiently explore GPU kernel optimizations from source-level implementation choices down to compiler pass ordering and runtime configuration. By making candidate evaluation fast and scalable, our approach enables practical end-to-end search over optimization dimensions that are typically treated separately. We show that Record-Remix-Replay can optimize full scientific applications better than traditional approaches over kernel parameters and compiler flags, while also being nearly an order of magnitude faster than modern evolutionary search approaches.

0 Citations
0 Influential
8 Altmetric
40.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!