MMR-Bench: 멀티모달 LLM 라우팅을 위한 포괄적인 벤치마크
MMR-Bench: A Comprehensive Benchmark for Multimodal LLM Routing
멀티모달 대규모 언어 모델(MLLM)은 급격히 발전했지만, 아키텍처, 정렬 전략 및 효율성의 이질성으로 인해 어떤 단일 모델도 모든 작업에서 일관되게 우월하지는 않습니다. 실제 배포 환경에서 워크로드는 가벼운 OCR부터 복잡한 멀티모달 추론까지 다양하며, 모든 쿼리에 하나의 MLLM을 사용하는 것은 쉬운 예제에 연산을 과잉 공급하거나 어려운 예제에서 정확도를 희생하게 됩니다. 쿼리 수준의 모델 선택(라우팅)은 이러한 문제를 해결하지만, 텍스트 전용 LLM의 라우팅을 MLLM으로 확장하는 것은 모달리티 융합, 모델 간 연산 비용의 큰 차이, 그리고 표준화된 예산 인식 평가의 부재로 인해 쉽지 않습니다. 우리는 멀티모달 라우팅 문제를 분리하고 고정된 후보군 및 비용 모델 하에서 비교를 가능하게 하는 통합 벤치마크인 MMR-Bench를 제안합니다. MMR-Bench는 (i) 모달리티 인식 입력과 가변적인 연산 예산이 있는 통제된 환경, (ii) OCR, 일반 VQA, 멀티모달 수학 추론을 포괄하는 광범위한 시각-언어 작업 세트, 그리고 (iii) 강력한 단일 모델 레퍼런스, 오라클 상한선(oracle upper bounds), 대표적인 라우팅 정책을 제공합니다. MMR-Bench를 사용하여 우리는 멀티모달 신호를 통합하는 것이 라우팅 품질을 향상시킨다는 것을 보여줍니다. 실증적으로 이러한 단서들은 비용-정확도 경계를 개선하며, 라우팅된 시스템이 가장 강력한 단일 모델 비용의 약 33% 수준으로 해당 모델의 정확도를 초과할 수 있게 합니다. 또한, 일부 모델과 작업에 대해 훈련된 정책은 재조정 없이 새로운 데이터셋과 텍스트 전용 벤치마크에 제로샷으로 일반화되며, 이는 MMR-Bench가 적응형 멀티모달 모델 선택 및 효율적인 MLLM 배포를 연구하기 위한 기반임을 입증합니다. 코드는 https://github.com/Hunter-Wrynn/MMR-Bench 에서 제공될 예정입니다.
Multimodal large language models (MLLMs) have advanced rapidly, yet heterogeneity in architecture, alignment strategies, and efficiency means that no single model is uniformly superior across tasks. In practical deployments, workloads span lightweight OCR to complex multimodal reasoning; using one MLLM for all queries either over-provisions compute on easy instances or sacrifices accuracy on hard ones. Query-level model selection (routing) addresses this tension, but extending routing from text-only LLMs to MLLMs is nontrivial due to modality fusion, wide variation in computational cost across models, and the absence of a standardized, budget-aware evaluation. We present MMR-Bench, a unified benchmark that isolates the multimodal routing problem and enables comparison under fixed candidate sets and cost models. MMR-Bench provides (i) a controlled environment with modality-aware inputs and variable compute budgets, (ii) a broad suite of vision-language tasks covering OCR, general VQA, and multimodal math reasoning, and (iii) strong single-model reference, oracle upper bounds, and representative routing policies. Using MMR-Bench, we show that incorporating multimodal signals improves routing quality. Empirically, these cues improve the cost-accuracy frontier and enable the routed system to exceed the strongest single model's accuracy at roughly 33% of its cost. Furthermore, policies trained on a subset of models and tasks generalize zero-shot to new datasets and text-only benchmarks without retuning, establishing MMR-Bench as a foundation for studying adaptive multimodal model selection and efficient MLLM deployment. The code will be available at: https://github.com/Hunter-Wrynn/MMR-Bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.