POLAR: 엣지 LLM 서비스에서의 LoRA 어댑터 캐싱 및 라우팅을 위한 온라인 학습
POLAR: Online Learning for LoRA Adapter Caching and Routing in Edge LLM Serving
대규모 언어 모델(LLM)을 엣지 환경에 배포하는 데 있어, 경량 LoRA 어댑터 라이브러리가 점점 더 중요해지고 있지만, GPU/DRAM은 한 번에 작은 부분만 메모리에 유지할 수 있습니다. 메모리에 없는 어댑터를 사용하여 요청을 처리하려면 해당 가중치를 저장소에서 가져와야 하며, 이 과정에서 측정 가능한 지연이 발생합니다. 이는 두 가지 시간 척도를 갖는 온라인 제어 문제로 구성됩니다. 느린 시간 척도에서는 시스템이 빠른 메모리에 어떤 어댑터를 유지할지 선택하고, 빠른 시간 척도에서는 각 요청을 컨텍스트에 따라 유용성이 사전에 알려지지 않은 어댑터로 라우팅합니다. 이 두 결정은 밀접하게 연결되어 있습니다. 캐시는 탐색 비용을 결정하고, 라우터는 어떤 어댑터가 유용한 피드백을 받을 수 있는지 결정합니다. 본 논문에서는 이 공동 캐싱 및 라우팅 문제를 두 가지 시간 척도를 갖는 컨텍스추얼 밴딧 문제로 정의하고, POLAR (Paging and Online Learning for Adapter Routing)을 제안합니다. POLAR은 캐시 정보를 활용한 LinUCB 라우터와 에포크 기반 캐시 컨트롤러를 결합합니다. 두 가지 변형을 연구했습니다. 고정 에포크 버전은 임의의 컨텍스트에서 최악의 후회에 대한 보장을 제공하는 강력한 기본 모델입니다. 에포크 증가 버전인 POLAR+는 강제 탐색과 개선된 캐시 최적화를 추가하여 확률적 정규성 및 캐시 가능성 조건 하에서 $ ilde{ ext{O}}(d ext{sqrt}(NT) + ext{sqrt}(KT))$의 부분 선형 후회를 달성합니다. 여기서 $N$은 어댑터 수, $K$는 캐시 크기, $d$는 컨텍스트 차원, $T$는 시간 지평입니다. 라우팅 성능은 표준 컨텍스추얼 밴딧 학습률과 거의 동일하며, 메모리 계층 구조가 라우팅 학습 속도를 근본적으로 늦추지 않음을 보여줍니다. Qwen2.5-7B에 대한 15개의 실제 LoRA 어댑터를 사용하고 측정된 GPU 페이지 지연을 통해 실험한 결과, 적응형 캐시 제어가 비적응적 기본 모델보다 훨씬 우수한 성능을 보이며, 이론적 예측과 일관된 확장 추세를 나타냅니다.
Edge deployment of large language models (LLMs) increasingly relies on libraries of lightweight LoRA adapters, yet GPU/DRAM can keep only a small resident subset at a time. Serving a request through a non-resident adapter requires paging its weights from storage, incurring measurable latency. This creates a two-timescale online control problem: on a slow timescale, the system selects which adapters remain resident in fast memory, while on a fast timescale it routes each request to an adapter whose context-dependent utility is unknown a priori. The two decisions are tightly coupled: the cache determines the cost of exploration, and the router determines which adapters receive informative feedback. We formulate this joint caching-and-routing problem as a two-timescale contextual bandit and propose POLAR (Paging and Online Learning for Adapter Routing). POLAR pairs a cache-aware LinUCB router with an epoch-based cache controller. We study two variants. A fixed-epoch version provides a robust baseline with worst-case regret guarantees under arbitrary contexts. An epoch-doubling version, POLAR+, adds forced exploration and improved cache optimization to achieve $\widetilde{\mathcal{O}}(d\sqrt{NT}+\sqrt{KT})$ sublinear regret under stochastic regularity and cacheability conditions, where $N$ is the adapter count, $K$ the cache size, $d$ the context dimension, and $T$ the horizon. The routing term matches the standard contextual-bandit rate up to logarithmic factors, showing that the memory hierarchy does not fundamentally slow routing learning. Experiments using 15 real LoRA adapters for Qwen2.5-7B together with measured GPU paging latencies show that adaptive cache control substantially outperforms non-adaptive baselines and exhibits scaling trends consistent with the theory.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.