초기 설계 및 지속적인 개선을 위한 접근 방식: NPU 커널 합성에 적용된 가치 중심 메모리 기반 방법
Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis
대규모 언어 모델을 데이터가 부족한 프로그래밍 분야에 적용하는 것은 상당한 어려움을 야기하며, 특히 데이터 '벽(Data Wall)'으로 인해 제한된 학습 데이터를 가진 새로운 도메인 특화 아키텍처(DSA)에서의 커널 합성에 더욱 그러합니다. 모델은 CUDA와 같은 데이터가 풍부한 플랫폼에서는 뛰어난 성능을 보이지만, NPU 프로그래밍과 같이 데이터가 부족한 환경에서는 성능이 급격히 저하됩니다. 이러한 초기 단계의 어려움을 비용이 많이 드는 미세 조정 없이 극복하기 위해, 우리는 초기 설계부터 지속적인 개선까지 커널 합성의 전체 라이프사이클을 자동화하는 자기 진화형 에이전트 프레임워크인 EvoKernel을 소개합니다. EvoKernel은 커널 합성 과정을 메모리 기반 강화 학습 문제로 정의하여 이 문제를 해결합니다. 새로운 가치 중심 검색 메커니즘을 통해, EvoKernel은 현재 목표에 기여하는 경험을 우선순위로 하여 단계별 Q-값을 학습합니다. 이를 통해 초기 실행 가능한 커널을 생성하거나 지연 시간을 반복적으로 개선하는 데 필요한 경험을 활용합니다. 또한, EvoKernel은 간단한 연산자에서 복잡한 연산자로의 지식 공유를 가능하게 하여 에이전트가 다양한 연산에 대한 통찰력을 일반화하도록 합니다. 우리는 KernelBench의 NPU 버전을 구축하고 이를 통해 EvoKernel이 최첨단 모델의 정확도를 11.0%에서 83.0%로 향상시키고, 반복적인 개선을 통해 초기 설계에 비해 평균 3.60배의 속도 향상을 달성했음을 보여줍니다. 이는 가치 지향적인 경험 축적을 통해 범용 모델이 틈새 하드웨어 생태계에서 커널 합성 작업을 수행할 수 있음을 입증합니다. 자세한 내용은 다음 웹사이트에서 확인할 수 있습니다: https://evokernel.zhuo.li.
Deploying Large Language Models to data-scarce programming domains poses significant challenges, particularly for kernel synthesis on emerging Domain-Specific Architectures where a "Data Wall" limits available training data. While models excel on data-rich platforms like CUDA, they suffer catastrophic performance drops on data-scarce ecosystems such as NPU programming. To overcome this cold-start barrier without expensive fine-tuning, we introduce EvoKernel, a self-evolving agentic framework that automates the lifecycle of kernel synthesis from initial drafting to continual refining. EvoKernel addresses this by formulating the synthesis process as a memory-based reinforcement learning task. Through a novel value-driven retrieval mechanism, it learns stage-specific Q-values that prioritize experiences based on their contribution to the current objective, whether bootstrapping a feasible draft or iteratively refining latency. Furthermore, by enabling cross-task memory sharing, the agent generalizes insights from simple to complex operators. By building an NPU variant of KernelBench and evaluating on it, EvoKernel improves frontier models' correctness from 11.0% to 83.0% and achieves a median speedup of 3.60x over initial drafts through iterative refinement. This demonstrates that value-guided experience accumulation allows general-purpose models to master the kernel synthesis task on niche hardware ecosystems. Our official page is available at https://evokernel.zhuo.li.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.