ShardMemo: 샤딩된 에이전트형 LLM 메모리를 위한 마스킹된 MoE 라우팅
ShardMemo: Masked MoE Routing for Sharded Agentic LLM Memory
에이전트형 대규모 언어 모델(LLM) 시스템은 장기 상태 유지와 동시 다중 에이전트 실행을 위해 외부 메모리에 의존하지만, 메모리 용량과 병렬 액세스가 증가함에 따라 중앙 집중식 인덱스와 휴리스틱 기반 분할은 병목 현상이 됩니다. 우리는 예산이 할당된 계층형 메모리 서비스인 ShardMemo를 제안합니다. 이는 에이전트별 작업 상태를 관리하는 Tier A, 샤드 로컬 근사 최근접 이웃(ANN) 인덱스를 갖춘 샤딩된 증거 데이터를 포함하는 Tier B, 그리고 버전 관리된 기술 라이브러리인 Tier C로 구성됩니다. Tier B는 '라우팅 전 범위 설정(scope-before-routing)'을 적용하여, 구조화된 적격성 제약 조건을 통해 라우팅이나 ANN 검색 전에 부적격 샤드를 마스킹합니다. 우리는 샤드 탐색을 적격 샤드에 대한 마스킹된 전문가 혼합(MoE) 라우팅으로 설정하여, Top-$B_{\mathrm{probe}}$ 또는 적응형 Top-$P$를 통해 최대 $B_{\mathrm{probe}}$개의 샤드를 탐색하고, 프로필/관측/세션 샤드 패밀리에 대해 비용 인식 게이팅을 사용합니다. 라우터는 증거-대-샤드(evidence-to-shard) 지도 학습을 통해 훈련됩니다. LoCoMo에서 ShardMemo는 가장 강력한 베이스라인(GAM) 대비 질문 범주 전반에 걸쳐 +5.11에서 +6.82의 F1 점수 향상을 보였습니다. 고정 예산 라우팅 설정($B_{\mathrm{probe}}=3$) 하에서, ShardMemo는 코사인-프로토타입 샤드 라우팅보다 F1 점수를 +6.87 향상시키면서도 검색 작업량(VecScan 521->414, -20.5%)과 p95 지연 시간(95->76 ms)을 감소시켰습니다. 긴 문맥 HotpotQA에서 ShardMemo는 56K/224K/448K 토큰 길이에 대해 각각 63.41/61.88/57.95의 F1 점수를 달성했습니다. ToolBench에서 Tier C는 0.97의 Precision@3와 1.94의 StepRed를 기록했습니다(임베딩 유사도 검색 대비 각각 +10.2% 및 +7.2% 향상).
Agentic large language model (LLM) systems rely on external memory for long-horizon state and concurrent multi-agent execution, but centralized indexes and heuristic partitions become bottlenecks as memory volume and parallel access grow. We present ShardMemo, a budgeted tiered memory service with Tier A per-agent working state, Tier B sharded evidence with shard-local approximate nearest neighbor (ANN) indexes, and Tier C, a versioned skill library. Tier B enforces scope-before-routing: structured eligibility constraints mask ineligible shards before routing or ANN search. We cast shard probing as masked mixture-of-experts (MoE) routing over eligible shards, probing up to $B_{\mathrm{probe}}$ shards via Top-$B_{\mathrm{probe}}$ or adaptive Top-$P$, and use cost-aware gating over profile/observation/session shard families; the router is trained from evidence-to-shard supervision. On LoCoMo, ShardMemo improves over the strongest baseline (GAM) by +5.11 to +6.82 F1 across question categories. Under a fixed-budget routing setting ($B_{\mathrm{probe}}=3$), ShardMemo improves over cosine-to-prototype shard routing by +6.87 F1 while reducing retrieval work (VecScan 521->414, -20.5%) and p95 latency (95->76 ms). On long-context HotpotQA, ShardMemo achieves 63.41/61.88/57.95 F1 at 56K/224K/448K tokens. On ToolBench, Tier C reaches 0.97 Precision@3 and 1.94 StepRed (+10.2% and +7.2% over embedding-similarity retrieval).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.