논문: LLM 서빙의 요구 사항: 수학적 최적화 및 알고리즘적 기반, 단순한 휴리스틱스가 아닌
Position: LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics
본 논문은 LLM 추론 서빙이 일반적인 휴리스틱의 한계를 넘어 수학적 최적화 및 알고리즘적 기반이 필요하다고 주장합니다. vLLM 및 SGLang과 같은 서빙 시스템의 빠른 발전에도 불구하고, 그 핵심 알고리즘은 여전히 고전적인 분산 컴퓨팅 방식과 크게 다르지 않습니다. 요청 라우팅은 최단 대기열 또는 라운드 로빈 방식을 사용하고, 스케줄링은 FIFO(선입선출) 방식을 기본으로 하며, KV 캐시 제거는 LRU(최근 사용 빈도 최소) 방식을 따릅니다. 이러한 범용 정책은 LLM 추론의 고유한 특징, 즉 동적으로 증가하는 KV 캐시 메모리, 프리필-디코딩 단계의 비대칭성, 알려지지 않은 출력 길이, 그리고 지속적인 배치 제약 조건 등을 고려하지 않습니다. 우리는 이 분야가 이러한 특징을 포착하는 수학적 모델을 개발하고, 다양한 워크로드에서 증명 가능한 성능 보장을 제공하는 알고리즘을 설계해야 한다고 주장합니다. 운영 연구와 머신 러닝 시스템의 교차 분야에서 진행되는 연구는 이러한 원칙적인 방법이 휴리스틱 성능에 못지 않거나 더 우수한 성능을 제공하며, 이론적인 보장을 제공할 수 있음을 보여줍니다. 우리는 커뮤니티가 LLM 서빙을 위한 알고리즘 설계가 중요한 연구 분야임을 인식해야 한다고 촉구합니다.
This position paper argues that LLM inference serving has outgrown generic heuristics and now demands mathematical optimization and algorithmic foundations. Despite rapid advances in serving systems such as vLLM and SGLang, their algorithmic cores remain largely unchanged from classical distributed computing: request routing uses join-shortest-queue or round-robin, scheduling defaults to FIFO, and KV cache eviction follows LRU. These general-purpose policies ignore the distinctive structure of LLM inference--dynamically growing KV cache memory, prefill-decode phase asymmetry, unknown output lengths, and continuous batching constraints. We contend that the field must develop mathematical models capturing these characteristics, enabling the design of algorithms with provable performance guarantees across diverse workloads, rather than heuristics that may succeed in some scenarios but fail unpredictably in others. Emerging work at the intersection of operations research and ML systems demonstrates that principled methods can match or exceed heuristic performance while providing theoretical guarantees. We call on the community to recognize algorithmic design for LLM serving as a research frontier.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.