2601.18130v1 Jan 26, 2026 cs.AI

RouteMoA: 사전 추론 없는 동적 라우팅을 통한 효율적인 Mixture-of-Agents 성능 향상

RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

Jize Wang
Jize Wang
Citations: 99
h-index: 4
Han Wu
Han Wu
Citations: 4
h-index: 1
Zhiyuan You
Zhiyuan You
Citations: 782
h-index: 6
Zifei Shan
Zifei Shan
Citations: 2
h-index: 1
Songyang Zhang
Songyang Zhang
Citations: 60
h-index: 2
Xinyi Le
Xinyi Le
Citations: 132
h-index: 5
Cailian Chen
Cailian Chen
Citations: 126
h-index: 3
Dacheng Tao
Dacheng Tao
Citations: 3
h-index: 1
Yiming Song
Yiming Song
Citations: 9
h-index: 2
Yijun Wang
Yijun Wang
Citations: 54
h-index: 4
Yining Li
Yining Li
Citations: 23
h-index: 3
Xinping Guan
Xinping Guan
Citations: 1,131
h-index: 16

Mixture-of-Agents(MoA)는 계층적 협업을 통해 LLM 성능을 향상시키지만, 밀집된 토폴로지로 인해 비용과 지연 시간이 증가합니다. 기존 방법들은 LLM 심사자를 사용하여 응답을 필터링하지만, 심사 전에 모든 모델이 추론을 수행해야 하므로 비용을 효과적으로 절감하지 못합니다. 또한 모델 선택 기준이 부족하고, 전체 추론 비용이 높으며 컨텍스트 제한을 초과할 수 있는 대규모 모델 풀을 처리하는 데 어려움을 겪습니다. 이를 해결하기 위해 우리는 동적 라우팅을 적용한 효율적인 Mixture-of-Agents 프레임워크인 RouteMoA를 제안합니다. RouteMoA는 경량화된 채점기를 사용하여 쿼리로부터 대략적인 성능을 예측해 초기 선별을 수행함으로써, 추론 과정 없이 후보군을 잠재력이 높은 하위 집합으로 좁힙니다. 이후 심사자 혼합(mixture of judges)이 기존 모델의 출력을 바탕으로 경량화된 자체 및 교차 평가를 통해 점수를 정교화하여, 추가적인 추론 없이 사후 보정을 제공합니다. 마지막으로, 모델 순위 선정 메커니즘이 성능, 비용, 지연 시간의 균형을 고려하여 모델을 선택합니다. RouteMoA는 다양한 작업과 모델 풀 크기에서 MoA를 능가하는 성능을 보였으며, 대규모 모델 풀에서 비용을 89.8%, 지연 시간을 63.6% 감소시켰습니다.

Original Abstract

Mixture-of-Agents (MoA) improves LLM performance through layered collaboration, but its dense topology raises costs and latency. Existing methods employ LLM judges to filter responses, yet still require all models to perform inference before judging, failing to cut costs effectively. They also lack model selection criteria and struggle with large model pools, where full inference is costly and can exceed context limits. To address this, we propose RouteMoA, an efficient mixture-of-agents framework with dynamic routing. It employs a lightweight scorer to perform initial screening by predicting coarse-grained performance from the query, narrowing candidates to a high-potential subset without inference. A mixture of judges then refines these scores through lightweight self- and cross-assessment based on existing model outputs, providing posterior correction without additional inference. Finally, a model ranking mechanism selects models by balancing performance, cost, and latency. RouteMoA outperforms MoA across varying tasks and model pool sizes, reducing cost by 89.8% and latency by 63.6% in the large-scale model pool.

1 Citations
0 Influential
8 Altmetric
41.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!