2605.04595v1 May 06, 2026 cs.LG

KV 캐시 메모리 제약 조건 하에서의 LLM 추론 안정성 분석을 위한 큐잉 이론 기반 프레임워크

A Queueing-Theoretic Framework for Stability Analysis of LLM Inference with KV Cache Memory Constraints

Nian Si
Nian Si
Citations: 376
h-index: 10
Zijie Zhou
Zijie Zhou
Citations: 29
h-index: 3
Chengyi Nie
Chengyi Nie
Citations: 27
h-index: 2

대규모 언어 모델(LLM)의 급속한 도입은 효율적인 대규모 추론에 상당한 어려움을 야기했습니다. 기존 워크로드와 달리, LLM 추론은 연산뿐만 아니라 키-값(KV) 캐싱으로 인한 메모리 오버헤드에 의해 제약됩니다. KV 캐싱은 디코딩을 가속화하지만 GPU 메모리를 빠르게 소진시킵니다. 본 논문에서는 연산 및 GPU 메모리 제약을 모두 명시적으로 고려하여 LLM 추론을 분석하는 최초의 큐잉 이론 기반 프레임워크를 제시합니다. 이 프레임워크를 기반으로, LLM 추론 서비스가 무한한 큐 증가 없이도 들어오는 요청을 처리할 수 있는지 여부를 결정하는 엄격한 안정 및 불안정 조건을 도출했습니다. 이 결과는 시스템 배포에 강력한 도구를 제공하며, GPU 프로비저닝의 핵심 과제를 해결할 수 있습니다. 운영자는 추정된 요청 도착률과 도출된 안정 서비스율을 결합하여 과도한 구매 또는 성능 저하를 초래하는 과소 프로비저닝을 피하기 위해 필요한 클러스터 크기를 계산할 수 있습니다. 또한, 실제 GPU 생산 환경에서 광범위한 실험을 통해 이론적 예측을 검증했습니다. 실험 결과, 예측된 안정 조건이 매우 정확하며, 일반적으로 10% 이내의 편차를 보였습니다.

Original Abstract

The rapid adoption of large language models (LLMs) has created significant challenges for efficient inference at scale. Unlike traditional workloads, LLM inference is constrained by both computation and the memory overhead of key-value (KV) caching, which accelerates decoding but quickly exhausts GPU memory. In this paper, we introduce the first queueing-theoretic framework that explicitly incorporates both computation and GPU memory constraints into the analysis of LLM inference. Based on this framework, we derive rigorous stability and instability conditions that determine whether an LLM inference service can sustain incoming demand without unbounded queue growth. This result offers a powerful tool for system deployment, potentially addressing the core challenge of GPU provisioning. By combining an estimated request arrival rate with our derived stable service rate, operators can calculate the necessary cluster size to avoid both costly over-purchasing and performance-violating under-provisioning. We further validate our theoretical predictions through extensive experiments in real GPU production environments. Our results show that the predicted stability conditions are highly accurate, with deviations typically within 10%.

1 Citations
0 Influential
5 Altmetric
26.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!