2603.26796v1 Mar 25, 2026 cs.LG

비용 및 용량 제약 하에서 대규모 언어 모델을 위한 견고한 배치 레벨 쿼리 라우팅

Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints

Kayhan Behdin
Kayhan Behdin
Citations: 175
h-index: 8
Zhipeng Wang
Zhipeng Wang
Citations: 16
h-index: 3
Zhengze Zhou
Zhengze Zhou
Citations: 9
h-index: 2
Jelena Markovic-Voronov
Jelena Markovic-Voronov
Citations: 3
h-index: 1
Yuan Xu
Yuan Xu
Citations: 31
h-index: 3
Rahul Mazumder
Rahul Mazumder
Citations: 46
h-index: 3

본 연구는 비용, GPU 자원 및 동시성 제약 조건 하에서 대규모 언어 모델(LLM)로의 쿼리 라우팅 문제를 다룹니다. 기존의 개별 쿼리 라우팅 방식은 배치 레벨의 비용을 효과적으로 제어하지 못하는 경우가 많으며, 특히 불균등하거나 적대적인 배치 환경에서 문제가 됩니다. 이러한 문제를 해결하기 위해, 우리는 각 배치에 대한 모델 할당을 최적화하면서 비용 및 모델 용량 제한을 준수하는 배치 레벨의, 자원 기반 라우팅 프레임워크를 제안합니다. 또한, 예측된 LLM 성능의 불확실성을 고려하는 견고한 변형을 도입하고, 여러 모델 간의 품질과 처리량을 균형 있게 조정하는 오프라인 인스턴스 할당 절차를 제시합니다. 두 가지 멀티태스크 LLM 벤치마크에 대한 실험 결과, 견고성은 성능 예측기의 종류에 따라 1~14%의 정확도 향상을 가져왔으며, 배치 레벨 라우팅은 적대적인 배치 환경에서 개별 쿼리 방식보다 최대 24%의 성능 향상을 보였습니다. 또한, 최적화된 인스턴스 할당은 비최적화된 할당에 비해 최대 3%의 추가적인 성능 향상을 가져왔으며, 동시에 비용 및 GPU 자원 제약 조건을 엄격하게 준수했습니다.

Original Abstract

We study the problem of routing queries to large language models (LLMs) under cost, GPU resources, and concurrency constraints. Prior per-query routing methods often fail to control batch-level cost, especially under non-uniform or adversarial batching. To address this, we propose a batch-level, resource-aware routing framework that jointly optimizes model assignment for each batch while respecting cost and model capacity limits. We further introduce a robust variant that accounts for uncertainty in predicted LLM performance, along with an offline instance allocation procedure that balances quality and throughput across multiple models. Experiments on two multi-task LLM benchmarks show that robustness improves accuracy by 1-14% over non-robust counterparts (depending on the performance estimator), batch-level routing outperforms per-query methods by up to 24% under adversarial batching, and optimized instance allocation yields additional gains of up to 3% compared to a non-optimized allocation, all while strictly controlling cost and GPU resource constraints.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!