Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving (Irminsul: 에이전트 LLM 서비스용 MLA-Native 위치 독립적 캐싱)
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
에이전트 LLM 워크로드는 매번 토큰의 위치가 변경되므로, 첫 번째 차이점에서도 프리픽스 캐시가 무효화됩니다. 운영자들은 캐시 적중률 저하로 인해 콘텐츠가 변경되지 않았음에도 불구하고, 10~16초의 심각한 TTFT(Time To First Token) 지연이 발생하는 것을 보고했습니다. 기존의 위치 독립적 캐싱 시스템은 GQA(Group Query Attention)에 의해 발생하는 구조적 비용인 $d_K$ 차원의 전체 키에 대한 RoPE(Rotary Positional Embedding)를 수정합니다. Multi-Head Latent Attention은 DeepSeek-V2/V3/R1, Kimi-K2/Moonlight, GLM-5, Mistral Large 3 등에서 대규모로 사용되며, 각 KV 행을 위치에 독립적인 $c_{KV}$와 64차원의 $k_r$로 분리하여, $k_r$은 해석적으로 수정 가능합니다. 이러한 구조는 콘텐츠 기반 캐싱이 GQA의 우회 솔루션이 아닌 자연스러운 선택임을 시사합니다. 본 논문에서는 CDC(Content Delivery Chunk)로 분할된 세그먼트와 $k_r$에 대한 $δ$-회전 규칙을 사용하는 콘텐츠 해시 키를 통해 SGLang의 라디스 캐시를 확장한 Irminsul을 제안합니다. DeepSeek-V2-Lite (16B/2.4B), Kimi Moonlight-16B-A3B, JoyAI-Flash (48B/3B)의 세 가지 MLA-MoE 배포 환경에서 Irminsul을 평가한 결과, 모든 환경에서 출력 일관성을 유지했으며, 두 엔드포인트에서 복구 성능을 측정했습니다. Irminsul은 에이전트 트래픽에서 정확한 프리픽스보다 최대 83%의 프롬프트 토큰을 복구하는 동시에, 캐시 적중당 63%의 프리필 에너지 절감 효과를 제공합니다. 우리는 콘텐츠 기반 캐싱이 프리픽스 매칭을 대체하는 것이 아니라, 서비스 스택의 핵심 구성 요소가 되어야 한다고 주장합니다.
Agentic LLM workloads put bit-identical tokens at shifted positions every turn, voiding prefix caches at the first byte of divergence. Operators report cache-hit regressions ranging from moderate slowdowns to severe TTFT spikes of 10-16s on unchanged content. Prior position-independent caching systems correct RoPE on the full $d_K$-dimensional key, an architectural cost imposed by GQA, not by caching itself. Multi-Head Latent Attention, deployed at scale in DeepSeek-V2/V3/R1, Kimi-K2/Moonlight, GLM-5, and Mistral Large 3, factors each KV row into a position-free $c_{KV}$ and a 64-dim $k_r$ correctable in closed form; this structure motivates content-addressed caching as a natural fit rather than a GQA workaround. We present Irminsul, which extends SGLang's radix cache with content-hash keying over CDC-chunked segments and a $δ$-rotation rule for $k_r$. We evaluate three native MLA-MoE deployments - DeepSeek-V2-Lite (16B/2.4B), Kimi Moonlight-16B-A3B, and JoyAI-Flash (48B/3B) - with output-consistency on all three and recovery measured on the two endpoints; Irminsul recovers up to ~83% of prompt tokens above exact-prefix on agentic traffic while delivering 63% prefill energy savings per cache hit. We argue that content-addressed caching belongs in the serving stack as a first-class primitive, not a retrofit over prefix matching.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.