VLA 모델 분석: 엣지 AI 아키텍처를 위한 액션 생성 병목 현상 식별
Characterizing VLA Models: Identifying the Action Generation Bottleneck for Edge AI Architectures
비전-언어-액션 (VLA) 모델은 로봇 공학 및 엣지에서의 임베디드 AI에 중요한 역할을 하는 새로운 유형의 워크로드입니다. 이러한 모델이 확장됨에 따라 상당한 성능 향상을 보이지만, 실시간 애플리케이션의 엄격한 지연 시간 요구 사항을 충족하기 위해 로컬에서 배포해야 합니다. 본 논문에서는 Nvidia Jetson Orin 및 Thor 플랫폼과 같은 두 세대의 엣지 하드웨어에서 VLA 모델의 성능을 분석합니다. 최첨단 VLA 모델인 MolmoAct-7B를 사용하여 주요 실행 병목 현상을 파악했습니다. 전체 지연 시간의 최대 75%가 메모리 병목 현상이 발생하는 액션 생성 단계에서 소모됩니다. 분석적 모델링 및 시뮬레이션을 통해 1000억 개의 파라미터를 가진 모델로 확장하기 위한 하드웨어 요구 사항을 예측합니다. 또한, 고대역폭 메모리 기술 및 메모리 내 처리 (PIM)가 임베디드 AI를 위한 엣지 시스템에서 유망한 미래 기술 경로가 될 수 있는지에 대해 탐구합니다.
Vision-Language-Action (VLA) models are an emerging class of workloads critical for robotics and embodied AI at the edge. As these models scale, they demonstrate significant capability gains, yet they must be deployed locally to meet the strict latency requirements of real-time applications. This paper characterizes VLA performance on two generations of edge hardware, viz. the Nvidia Jetson Orin and Thor platforms. Using MolmoAct-7B, a state-of-the-art VLA model, we identify a primary execution bottleneck: up to 75% of end-to-end latency is consumed by the memory-bound action-generation phase. Through analytical modeling and simulations, we project the hardware requirements for scaling to 100B parameter models. We also explore the impact of high-bandwidth memory technologies and processing-in-memory (PIM) as promising future pathways in edge systems for embodied AI.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.