2604.14661v1 Apr 16, 2026 cs.SE

AIPC: 퀄컴 AI 런타임을 활용한 에이전트 기반 AI 모델 배포 자동화

AIPC: Agent-Based Automation for AI Model Deployment with Qualcomm AI Runtime

Zhanwei Wu
Zhanwei Wu
Citations: 104
h-index: 4
Sheng-Hui Huang
Sheng-Hui Huang
Citations: 37
h-index: 4
Weidong Feng
Weidong Feng
Citations: 5
h-index: 1
Jianhao Su
Jianhao Su
Citations: 0
h-index: 0

엣지 AI 모델 배포는 모델 변환, 연산자 호환성 처리, 양자화 보정, 런타임 통합, 정확도 검증 등 여러 단계를 거치는 복잡한 엔지니어링 프로세스입니다. 특히, 하드웨어 특정 추론 런타임을 대상으로 할 때, 이 워크플로우는 시간이 오래 걸리고 오류가 발생하기 쉬우며, 배포 전문성에 크게 의존합니다. 본 기술 보고서는 AI 모델 배포의 제한적인 자동화를 위한 에이전트 기반 접근 방식인 AIPC (AI Porting Conversion)를 소개합니다. AIPC는 배포를 표준화되고 검증 가능한 단계로 분해하고, 에이전트 기술, 도우미 스크립트, 단계별 검증 루프를 통해 배포 도메인 지식을 에이전트 실행에 주입합니다. 이러한 설계는 하드웨어 배포에 필요한 전문 지식 장벽과 엔지니어링 시간을 줄입니다. 본 보고서에서는 주요 시나리오로 퀄컴 AI 런타임(QAIRT)을 사용하여 대표적인 비전, 멀티모달, 음성 모델에 대한 자동 배포를 검토합니다. 여기에서 다루는 경우, AIPC는 구조적으로 규칙적인 비전 모델의 경우, PyTorch에서 실행 가능한 QNN/SNPE 추론으로 7-20분 이내에 배포를 완료할 수 있으며, API 비용은 대략 0.7~10 USD 정도입니다. 지원되지 않는 연산자, 동적 형태 또는 자기 회귀 디코딩 구조를 포함하는 더 복잡한 모델의 경우, 완전 자동 배포는 여전히 추가적인 발전이 필요할 수 있지만, AIPC는 이미 실행, 오류 위치 파악 및 제한적인 복구에 대한 실질적인 지원을 제공합니다.

Original Abstract

Edge AI model deployment is a multi-stage engineering process involving model conversion, operator compatibility handling, quantization calibration, runtime integration, and accuracy validation. In practice, this workflow is long, failure-prone, and heavily dependent on deployment expertise, particularly when targeting hardware-specific inference runtimes. This technical report presents AIPC (AI Porting Conversion), an AI agent-driven approach for constrained automation of AI model deployment. AIPC decomposes deployment into standardized, verifiable stages and injects deployment-domain knowledge into agent execution through Agent Skills, helper scripts, and a stage-wise validation loop. This design reduces both the expertise barrier and the engineering time required for hardware deployment. Using Qualcomm AI Runtime (QAIRT) as the primary scenario, this report examines automated deployment across representative vision, multimodal, and speech models. In the cases covered here, AIPC can complete deployment from PyTorch to runnable QNN/SNPE inference within 7-20 minutes for structurally regular vision models, with indicative API costs roughly in the range of USD 0.7-10. For more complex models involving less-supported operators, dynamic shapes, or autoregressive decoding structures, fully automated deployment may still require further advances, but AIPC already provides practical support for execution, failure localization, and bounded repair.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!