2605.05696v1 May 07, 2026 cs.DC

Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving (Irminsul: 에이전트 LLM 서비스용 MLA-Native 위치 독립적 캐싱)

Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving

H. Kostler
H. Kostler
Citations: 5
h-index: 1
Bole Ma
Bole Ma
Citations: 2,404
h-index: 5
Jan Eitzinger
Jan Eitzinger
Citations: 366
h-index: 9

에이전트 LLM 워크로드는 매번 토큰의 위치가 변경되므로, 첫 번째 차이점에서도 프리픽스 캐시가 무효화됩니다. 운영자들은 캐시 적중률 저하로 인해 콘텐츠가 변경되지 않았음에도 불구하고, 10~16초의 심각한 TTFT(Time To First Token) 지연이 발생하는 것을 보고했습니다. 기존의 위치 독립적 캐싱 시스템은 GQA(Group Query Attention)에 의해 발생하는 구조적 비용인 $d_K$ 차원의 전체 키에 대한 RoPE(Rotary Positional Embedding)를 수정합니다. Multi-Head Latent Attention은 DeepSeek-V2/V3/R1, Kimi-K2/Moonlight, GLM-5, Mistral Large 3 등에서 대규모로 사용되며, 각 KV 행을 위치에 독립적인 $c_{KV}$와 64차원의 $k_r$로 분리하여, $k_r$은 해석적으로 수정 가능합니다. 이러한 구조는 콘텐츠 기반 캐싱이 GQA의 우회 솔루션이 아닌 자연스러운 선택임을 시사합니다. 본 논문에서는 CDC(Content Delivery Chunk)로 분할된 세그먼트와 $k_r$에 대한 $δ$-회전 규칙을 사용하는 콘텐츠 해시 키를 통해 SGLang의 라디스 캐시를 확장한 Irminsul을 제안합니다. DeepSeek-V2-Lite (16B/2.4B), Kimi Moonlight-16B-A3B, JoyAI-Flash (48B/3B)의 세 가지 MLA-MoE 배포 환경에서 Irminsul을 평가한 결과, 모든 환경에서 출력 일관성을 유지했으며, 두 엔드포인트에서 복구 성능을 측정했습니다. Irminsul은 에이전트 트래픽에서 정확한 프리픽스보다 최대 83%의 프롬프트 토큰을 복구하는 동시에, 캐시 적중당 63%의 프리필 에너지 절감 효과를 제공합니다. 우리는 콘텐츠 기반 캐싱이 프리픽스 매칭을 대체하는 것이 아니라, 서비스 스택의 핵심 구성 요소가 되어야 한다고 주장합니다.

Original Abstract

Agentic LLM workloads put bit-identical tokens at shifted positions every turn, voiding prefix caches at the first byte of divergence. Operators report cache-hit regressions ranging from moderate slowdowns to severe TTFT spikes of 10-16s on unchanged content. Prior position-independent caching systems correct RoPE on the full $d_K$-dimensional key, an architectural cost imposed by GQA, not by caching itself. Multi-Head Latent Attention, deployed at scale in DeepSeek-V2/V3/R1, Kimi-K2/Moonlight, GLM-5, and Mistral Large 3, factors each KV row into a position-free $c_{KV}$ and a 64-dim $k_r$ correctable in closed form; this structure motivates content-addressed caching as a natural fit rather than a GQA workaround. We present Irminsul, which extends SGLang's radix cache with content-hash keying over CDC-chunked segments and a $δ$-rotation rule for $k_r$. We evaluate three native MLA-MoE deployments - DeepSeek-V2-Lite (16B/2.4B), Kimi Moonlight-16B-A3B, and JoyAI-Flash (48B/3B) - with output-consistency on all three and recovery measured on the two endpoints; Irminsul recovers up to ~83% of prompt tokens above exact-prefix on agentic traffic while delivering 63% prefill energy savings per cache hit. We argue that content-addressed caching belongs in the serving stack as a first-class primitive, not a retrofit over prefix matching.

1 Citations
1 Influential
4.5 Altmetric
25.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!