생성된 데이터를 활용한 라우팅: 주석 없는 LLM 능력 추정 및 전문가 선택
Routing with Generated Data: Annotation-Free LLM Skill Estimation and Expert Selection
대규모 언어 모델(LLM) 라우터는 주어진 입력에 대해 최적의 모델을 동적으로 선택합니다. 기존 접근 방식은 일반적으로 정확한 레이블이 포함된 데이터에 접근할 수 있다고 가정하지만, 실제로는 특히 사용자 요청 분포가 이질적이고 알려지지 않은 경우 이러한 데이터가 종종 부족합니다. 본 연구에서는 라우터가 고수준 작업 설명을 통해 생성된 LLM에 의해 생성된 쿼리와 답변만을 사용하여 학습되는 어려운 환경인 '생성된 데이터를 활용한 라우팅(Routing with Generated Data, RGD)'을 소개합니다. 우리는 쿼리와 답변(레이블 포함)을 모두 사용하는 라우터와 쿼리만 사용하는 라우터를 4가지 다양한 벤치마크와 12개의 모델을 사용하여 평가한 결과, 생성 모델의 품질이 낮아질수록 쿼리와 답변을 사용하는 라우터가 쿼리만 사용하는 라우터보다 성능 저하가 더 심한 것을 확인했습니다. 분석 결과, 효과적인 생성 모델은 두 가지 중요한 특징을 가져야 합니다. 즉, 자체 질문에 정확하게 답변해야 하며, 질문이 모델 풀 내에서 충분한 성능 차이를 유발해야 합니다. 우리는 이러한 특징을 필터링하여 생성된 데이터의 품질을 향상시킬 수 있음을 보여줍니다. 또한, 모델 정확도를 합의 투표를 통해 추정하고 계층적 클러스터링을 통해 모델별 전문 분야를 식별하는 새로운 쿼리만 사용하는 라우터인 CASCAL을 제안합니다. CASCAL은 생성 모델의 품질에 훨씬 더 강건하며, 품질이 낮은 생성 데이터로 학습했을 때 가장 성능이 좋은 쿼리와 답변을 사용하는 라우터보다 4.6% 더 높은 정확도를 보였습니다.
Large Language Model (LLM) routers dynamically select optimal models for given inputs. Existing approaches typically assume access to ground-truth labeled data, which is often unavailable in practice, especially when user request distributions are heterogeneous and unknown. We introduce Routing with Generated Data (RGD), a challenging setting in which routers are trained exclusively on generated queries and answers produced from high-level task descriptions by generator LLMs. We evaluate query-answer routers (using both queries and labels) and query-only routers across four diverse benchmarks and 12 models, finding that query-answer routers degrade faster than query-only routers as generator quality decreases. Our analysis reveals two crucial characteristics of effective generators: they must accurately respond to their own questions, and their questions must produce sufficient performance differentiation among the model pool. We then show how filtering for these characteristics can improve the quality of generated data. We further propose CASCAL, a novel query-only router that estimates model correctness through consensus voting and identifies model-specific skill niches via hierarchical clustering. CASCAL is substantially more robust to generator quality, outperforming the best query-answer router by 4.6% absolute accuracy when trained on weak generator data.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.