ToolCaching: LLM 도구 호출을 위한 효율적인 캐싱 방안
ToolCaching: Towards Efficient Caching for LLM Tool-calling
최근 대규모 언어 모델(LLM)의 발전은 웹 애플리케이션에 혁신을 가져왔으며, 자연어 인터페이스를 통해 지능적인 검색, 추천 및 어시스턴트 서비스를 가능하게 합니다. 도구 호출(tool-calling)은 LLM이 외부 API와 상호 작용할 수 있도록 하여 실용성을 크게 향상시킵니다. 기존 연구에서는 병렬 및 비동기 실행과 같은 기존 컴퓨터 시스템 기술을 적용하여 도구 호출 성능을 개선했지만, 중복되거나 반복되는 도구 호출 요청 문제는 여전히 해결되지 않았습니다. 캐싱은 이러한 문제를 해결하는 고전적인 방법이지만, LLM 도구 호출에 적용할 때 이질적인 요청 의미, 동적인 워크로드 및 다양한 최신성 요구 사항으로 인해 기존 캐시 정책이 효과적이지 않습니다. 이러한 문제를 해결하기 위해, 우리는 LLM 도구 호출 시스템을 위한 효율적인 특징 기반의 적응형 캐싱 프레임워크인 ToolCaching을 제안합니다. ToolCaching은 요청의 캐시 가능성을 평가하고 캐싱 가치를 추정하기 위해 의미론적 및 시스템 수준의 특징을 체계적으로 통합합니다. 핵심적인 VAAC 알고리즘은 밴딧 기반의 입력을 사용하여 가치 기반의 다중 요인 퇴출을 수행하며, 요청 빈도, 최근성 및 캐싱 가치를 종합적으로 고려합니다. 합성 및 공개 도구 호출 워크로드에 대한 광범위한 실험 결과, VAAC를 사용하는 ToolCaching은 표준 정책에 비해 최대 11% 더 높은 캐시 적중률과 34% 더 낮은 지연 시간을 달성하여 실제 애플리케이션에서 LLM 도구 호출을 효과적으로 가속화합니다.
Recent advances in Large Language Models (LLMs) have revolutionized web applications, enabling intelligent search, recommendation, and assistant services with natural language interfaces. Tool-calling extends LLMs with the ability to interact with external APIs, greatly enhancing their practical utility. While prior research has improved tool-calling performance by adopting traditional computer systems techniques, such as parallel and asynchronous execution, the challenge of redundant or repeated tool-calling requests remains largely unaddressed. Caching is a classic solution to this problem, but applying it to LLM tool-calling introduces new difficulties due to heterogeneous request semantics, dynamic workloads, and varying freshness requirements, which render conventional cache policies ineffective. To address these issues, we propose ToolCaching, an efficient feature-driven and adaptive caching framework for LLM tool-calling systems. ToolCaching systematically integrates semantic and system-level features to evaluate request cacheability and estimate caching value. At its core, the VAAC algorithm integrates bandit-based admission with value-driven, multi-factor eviction, jointly accounting for request frequency, recency, and caching value. Extensive experiments on synthetic and public tool-calling workloads demonstrate that ToolCaching with VAAC achieves up to 11% higher cache hit ratios and 34% lower latency compared to standard policies, effectively accelerating LLM tool-calling in practical applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.