AgenticCache: 캐시 기반 비동기 계획을 통한 로봇 에이전트 제어
AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents
로봇 에이전트는 점점 더 많은 경우 계획 수립을 위해 대규모 언어 모델(LLM)에 의존하지만, 매 단계마다 LLM을 호출하는 것은 심각한 지연 시간과 비용을 초래합니다. 본 논문에서는 로봇 작업이 강한 계획 지역성을 가진다는 것을 보여줍니다. 즉, 다음 계획은 현재 계획으로부터 대부분 예측 가능하다는 것입니다. 이러한 점을 바탕으로, 본 논문에서는 매 단계마다 LLM 호출을 피하기 위해 캐시된 계획을 재사용하는 계획 프레임워크인 AgenticCache를 소개합니다. AgenticCache에서 각 에이전트는 빈번한 계획 전환에 대한 런타임 캐시를 쿼리하며, 백그라운드에서 Cache Updater는 LLM을 비동기적으로 호출하여 캐시된 항목을 검증하고 개선합니다. 4개의 멀티 에이전트 로봇 벤치마크에서 AgenticCache는 평균적으로 12개의 구성(4개의 벤치마크 x 3개의 모델)에 걸쳐 작업 성공률을 22% 향상시키고, 시뮬레이션 지연 시간을 65% 줄이며, 토큰 사용량을 50% 감소시켰습니다. 따라서 캐시 기반의 계획 재사용은 저지연, 저비용의 로봇 에이전트를 구현하는 실용적인 방법을 제공합니다. 코드는 https://github.com/hojoonleokim/MLSys26_AgenticCache 에서 확인할 수 있습니다.
Embodied AI agents increasingly rely on large language models (LLMs) for planning, yet per-step LLM calls impose severe latency and cost. In this paper, we show that embodied tasks exhibit strong plan locality, where the next plan is largely predictable from the current one. Building on this, we introduce AgenticCache, a planning framework that reuses cached plans to avoid per-step LLM calls. In AgenticCache, each agent queries a runtime cache of frequent plan transitions, while a background Cache Updater asynchronously calls the LLM to validate and refine cached entries. Across four multi-agent embodied benchmarks, AgenticCache improves task success rate by 22% on average across 12 configurations (4 benchmarks x 3 models), reduces simulation latency by 65%, and lowers token usage by 50%. Cache-based plan reuse thus offers a practical path to low-latency, low-cost embodied agents. Code is available at https://github.com/hojoonleokim/MLSys26_AgenticCache.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.