Switchcraft: 에이전트 기반 도구 호출을 위한 AI 모델 라우터
Switchcraft: AI Model Router for Agentic Tool Calling
외부 도구를 사용하는 에이전트 기반 AI 시스템은 강력하지만 비용이 많이 들기 때문에, 개발자들은 일반적으로 큰 모델을 사용하고 과도한 추론 비용을 지불하게 됩니다. 모델 라우팅은 이러한 문제를 완화할 수 있지만, 기존 라우터는 챗봇 완성에 최적화되어 있으며 도구 사용에는 적합하지 않습니다. 본 논문에서는 에이전트 기반 도구 호출에 최적화된 최초의 (현재까지 알려진 바로는) 모델 라우터인 Switchcraft을 제시합니다. Switchcraft은 실시간으로 작동하며, 정확성을 유지하면서 가장 저렴한 모델을 선택합니다. 우리는 5개의 함수 호출 벤치마크를 기반으로 평가 프레임워크를 구축하고, DistilBERT 기반 분류기를 학습시켜 지연 시간 제약 조건 하에서 배포했습니다. Switchcraft은 82.9%의 정확도를 달성하여, 최적의 개별 모델과 동등하거나 그 이상의 성능을 보이면서 추론 비용을 84% 절감하여, 100만 건의 쿼리당 3,600달러 이상의 비용 절감 효과를 얻었습니다. 우리는 큰 모델이 항상 작은 모델보다 도구 사용 작업에서 더 나은 성능을 보이는 것은 아니며, 표면적으로는 저렴해 보이는 모델이 토큰 기반 추론으로 인해 전체 비용이 더 높을 수 있다는 것을 확인했습니다. 본 연구는 정확성을 희생하지 않고 비용 효율적인 에이전트 기반 AI 시스템 배포를 가능하게 합니다.
Agentic AI systems that invoke external tools are powerful but costly, leading developers to default to large models and overspend inference budgets. Model routing can mitigate this, but existing routers are designed for chat completion rather than tool use. We present Switchcraft, the first (to the best of our knowledge) model router optimized for agentic tool calling. Switchcraft operates inline, selecting the lowest-cost model subject to correctness. We construct an evaluation framework on five function-calling benchmarks and train a DistilBERT-based classifier, deployed under a latency budget. Switchcraft achieves 82.9% accuracy -- matching or exceeding the best individual model -- while reducing inference cost by 84%, saving over $3,600 per million queries. We find that larger models do not consistently outperform smaller ones on tool-use tasks, and that nominally cheaper models can incur higher total cost due to token-intensive reasoning. Our work enables cost-aware agentic AI deployment without sacrificing correctness.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.