VibeTensor: AI 에이전트에 의해 완전히 생성된 딥러닝 시스템 소프트웨어
VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
VIBETENSOR는 LLM 기반 코딩 에이전트가 고수준의 인간 지침 하에 생성한 오픈 소스 딥러닝 시스템 소프트웨어 스택입니다. 본 논문에서 "완전히 생성됨"은 코드의 출처를 의미하며, 구현 변경 사항은 에이전트가 제안한 변경 사항(diff)으로 생성 및 적용되었고, 검증은 에이전트가 실행한 빌드, 테스트 및 차등 검사를 통해 이루어졌으며, 각 변경 사항에 대한 수동 diff 검토는 이루어지지 않았습니다. VIBETENSOR는 C++20 코어(CPU+CUDA)를 사용하는 PyTorch 스타일의 즉시 실행 텐서 라이브러리, nanobind를 통한 PyTorch와 유사한 Python 래퍼, 그리고 실험적인 Node.js/TypeScript 인터페이스를 구현합니다. 기존의 얇은 래퍼와 달리, VIBETENSOR는 자체 텐서/저장 시스템, 경량 스키마 디스패처, 역전파 자동 미분, CUDA 런타임(스트림/이벤트/그래프), 스트림 순서 캐싱 할당기(진단 기능 포함), 그리고 동적으로 로드 가능한 연산자 플러그인을 위한 안정적인 C ABI를 포함합니다. 본 릴리스는 AI 지원 소프트웨어 엔지니어링의 중요한 이정표로, 코딩 에이전트가 언어 바인딩부터 CUDA 메모리 관리까지 일관된 딥러닝 런타임을 생성할 수 있으며, 빌드 및 테스트를 통해 주로 검증될 수 있음을 보여줍니다. 본 논문에서는 시스템 아키텍처를 설명하고, 시스템 생성 및 검증에 사용된 워크플로우를 요약하며, 생성된 결과물을 평가합니다. 또한, 저장소 규모 및 테스트 스위트 구성, 그리고 AI가 생성한 커널 스위트에서 얻은 재현 가능한 마이크로 벤치마크 결과를 요약합니다. 여기에는 PyTorch SDPA/FlashAttention과 비교한 퓨즈드 어텐션 성능 결과가 포함됩니다. 또한, NVIDIA H100 (Hopper, SM90) 및 Blackwell 클래스 GPU에서 sequence reversal, ViT, miniGPT의 3가지 작은 워크로드에 대한 엔드-투-엔드 훈련의 타당성 검사 결과를 보고합니다. 멀티 GPU 결과는 Blackwell에서만 얻었으며, 선택적인 CUTLASS 기반 ring-allreduce 플러그인을 사용하며, 이는 CUDA 13+ 및 sm103a 툴체인 지원이 필요합니다. 마지막으로, 생성된 시스템 소프트웨어의 실패 모드에 대해 논의하며, 특히 로컬에서는 올바르게 작동하지만 전체적으로는 최적이 아닌 성능을 보이는 "Frankenstein" 효과에 대해 설명합니다.
VIBETENSOR is an open-source research system software stack for deep learning, generated by LLM-powered coding agents under high-level human guidance. In this paper, "fully generated" refers to code provenance: implementation changes were produced and applied as agent-proposed diffs; validation relied on agent-run builds, tests, and differential checks, without per-change manual diff review. It implements a PyTorch-style eager tensor library with a C++20 core (CPU+CUDA), a torch-like Python overlay via nanobind, and an experimental Node.js/TypeScript interface. Unlike thin bindings, VIBETENSOR includes its own tensor/storage system, schema-lite dispatcher, reverse-mode autograd, CUDA runtime (streams/events/graphs), a stream-ordered caching allocator with diagnostics, and a stable C ABI for dynamically loaded operator plugins. We view this release as a milestone for AI-assisted software engineering: it shows coding agents can generate a coherent deep learning runtime spanning language bindings down to CUDA memory management, validated primarily by builds and tests. We describe the architecture, summarize the workflow used to produce and validate the system, and evaluate the artifact. We report repository scale and test-suite composition, and summarize reproducible microbenchmarks from an accompanying AI-generated kernel suite, including fused attention versus PyTorch SDPA/FlashAttention. We also report end-to-end training sanity checks on 3 small workloads (sequence reversal, ViT, miniGPT) on NVIDIA H100 (Hopper, SM90) and Blackwell-class GPUs; multi-GPU results are Blackwell-only and use an optional CUTLASS-based ring-allreduce plugin gated on CUDA 13+ and sm103a toolchain support. Finally, we discuss failure modes in generated system software, including a "Frankenstein" composition effect where locally correct subsystems interact to yield globally suboptimal performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.