2601.21473v1 Jan 29, 2026 cs.AI

ScaleSim: 호출 거리 기반 메모리 관리를 이용한 대규모 멀티 에이전트 시뮬레이션 서빙

ScaleSim: Serving Large-Scale Multi-Agent Simulation with Invocation Distance-Based Memory Management

Zhengding Hu
Zhengding Hu
Citations: 23
h-index: 3
Aninda Manocha
Aninda Manocha
Citations: 132
h-index: 6
Zheng Wang
Zheng Wang
Citations: 27
h-index: 2
Zhongkai Yu
Zhongkai Yu
Citations: 11
h-index: 1
Yue Guan
Yue Guan
Citations: 45
h-index: 3
Yufei Ding
Yufei Ding
Citations: 11
h-index: 1
Zaifeng Pan
Zaifeng Pan
Citations: 52
h-index: 4
Yipeng Shen
Yipeng Shen
Citations: 14
h-index: 1
Zhuang Wang
Zhuang Wang
Citations: 47
h-index: 4

LLM 기반 멀티 에이전트 시뮬레이션은 다양한 응용 분야에서 점차 많이 채택되고 있지만, GPU 메모리 압박으로 인해 확장성을 확보하는 데 어려움이 있습니다. 각 에이전트는 모델, 프리픽스 캐시, 어댑터 등 GPU에 상주하는 개별 상태를 유지하는데, 에이전트 수가 늘어날수록 디바이스 메모리가 빠르게 고갈되기 때문입니다. 본 논문에서는 이러한 워크로드의 두 가지 핵심 속성인 희소한 에이전트 활성화와 추정 가능한 에이전트 호출 순서를 규명합니다. 대표적인 워크로드 유형 분석을 바탕으로, 에이전트가 향후 LLM 요청을 보낼 상대적 순서를 추정하는 통합된 추상화 개념인 '호출 거리(invocation distance)'를 도입합니다. 이 개념을 활용하여 대규모 멀티 에이전트 시뮬레이션을 위한 메모리 효율적인 LLM 서빙 시스템인 ScaleSim을 제안합니다. ScaleSim은 선제적 프리페칭과 우선순위 기반 축출(eviction)을 가능하게 하고, 모듈형 인터페이스를 통해 다양한 에이전트별 메모리를 지원하며, 시뮬레이션 벤치마크에서 SGLang 대비 최대 1.74배의 속도 향상을 달성했습니다.

Original Abstract

LLM-based multi-agent simulations are increasingly adopted across application domains, but remain difficult to scale due to GPU memory pressure. Each agent maintains private GPU-resident states, including models, prefix caches, and adapters, which quickly exhaust device memory as the agent count grows. We identify two key properties of these workloads: sparse agent activation and an estimable agent invocation order. Based on an analysis of representative workload classes, we introduce invocation distance, a unified abstraction that estimates the relative order in which agents will issue future LLM requests. Leveraging this abstraction, we present ScaleSim, a memory-efficient LLM serving system for large-scale multi-agent simulations. ScaleSim enables proactive prefetching and priority-based eviction, supports diverse agent-specific memory through a modular interface, and achieves up to 1.74x speedup over SGLang on simulation benchmarks.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!