모델 종속성을 극복하는 방법: 범용 잠재 공간을 활용한 비용 효율적인 제로샷 LLM 라우팅
Breaking Model Lock-in: Cost-Efficient Zero-Shot LLM Routing via a Universal Latent Space
대규모 언어 모델(LLM)의 급속한 확산은 단편적이고 비효율적인 생태계를 만들었으며, 이는 '모델 종속성'이라는 현상으로 이어져 새로운 모델을 원활하게 통합하는 데 큰 걸림돌이 됩니다. 기존의 라우팅 프레임워크는 방대한 데이터와 비용이 많이 드는 재학습을 요구하며, 이는 확장성과 적응성을 저해합니다. 본 논문에서는 이러한 종속성을 극복하는 새로운 LLM 라우팅 패러다임인 ZeroRouter를 소개합니다. 저희의 접근 방식은 모델에 독립적인 쿼리 난이도 표현인 '범용 잠재 공간'에 기반하며, 이를 통해 쿼리의 특징과 모델의 프로파일링을 근본적으로 분리합니다. 이를 통해 전체적인 재학습 없이 새로운 모델을 제로샷 방식으로 통합할 수 있습니다. ZeroRouter는 쿼리를 범용 공간에 매핑하는 컨텍스트 인식 예측기 및 정확도, 비용 및 지연 시간을 균형 있게 조정하는 이중 모드 최적화기를 특징으로 합니다. 저희의 프레임워크는 모든 기존 방식보다 일관되게 우수한 성능을 보여주며, 더 낮은 비용과 지연 시간으로 더 높은 정확도를 제공합니다.
The rapid proliferation of Large Language Models (LLMs) has led to a fragmented and inefficient ecosystem, a state of ``model lock-in'' where seamlessly integrating novel models remains a significant bottleneck. Current routing frameworks require exhaustive, costly retraining, hindering scalability and adaptability. We introduce ZeroRouter, a new paradigm for LLM routing that breaks this lock-in. Our approach is founded on a universal latent space, a model-agnostic representation of query difficulty that fundamentally decouples the characterization of a query from the profiling of a model. This allows for zero-shot onboarding of new models without full-scale retraining. ZeroRouter features a context-aware predictor that maps queries to this universal space and a dual-mode optimizer that balances accuracy, cost, and latency. Our framework consistently outperforms all baselines, delivering higher accuracy at lower cost and latency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.