FusionRoute를 이용한 토큰 단위 LLM 협업
Token-Level LLM Collaboration via FusionRoute
대규모 언어 모델(LLM)은 다양한 분야에서 뛰어난 성능을 보입니다. 그러나 단일의 범용 모델로 이러한 다양한 분야에서 강력한 성능을 달성하려면 훈련 및 배포 비용이 매우 높은 규모로 확장해야 합니다. 반면, 더 작은 규모의 특정 분야에 특화된 모델은 훨씬 효율적이지만, 훈련 데이터 분포를 벗어난 일반화에 어려움을 겪습니다. 이러한 문제점을 해결하기 위해, 우리는 FusionRoute라는 견고하고 효과적인 토큰 단위의 다중 LLM 협업 프레임워크를 제안합니다. FusionRoute는 경량의 라우터가 (i) 각 디코딩 단계에서 가장 적합한 전문가 모델을 선택하고, 동시에 (ii) 선택된 전문가 모델의 다음 토큰 분포를 개선하거나 수정하기 위해 보완적인 로짓 값을 더하는 방식으로 작동합니다. 기존의 토큰 단위 협업 방법들이 고정된 전문가 모델의 출력에만 의존하는 것과는 달리, 우리는 이론적 분석을 통해 순수한 전문가 모델 라우팅만으로는 근본적인 한계가 있음을 보여줍니다. 즉, 강력한 전역 커버리지 가정이 성립하지 않는 한, 일반적으로 최적의 디코딩 정책을 구현할 수 없습니다. FusionRoute는 훈련 가능한 보완 생성기를 통해 전문가 모델 선택을 확장하여, 보다 넓은 정책 범위를 확보하고, 온화한 조건 하에서 최적의 값 함수를 복구할 수 있도록 합니다. 실험 결과, Llama-3 및 Gemma-2 모델 패밀리 전반에 걸쳐 수학적 추론, 코드 생성, 지시 따르기 등 다양한 벤치마크에서 FusionRoute는 시퀀스 및 토큰 단위 협업, 모델 병합, 직접 미세 조정 방법보다 우수한 성능을 보였으며, 각 분야의 전문가 모델과 경쟁력 있는 성능을 유지했습니다.
Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a single general-purpose model typically requires scaling to sizes that are prohibitively expensive to train and deploy. On the other hand, while smaller domain-specialized models are much more efficient, they struggle to generalize beyond their training distributions. To address this dilemma, we propose FusionRoute, a robust and effective token-level multi-LLM collaboration framework in which a lightweight router simultaneously (i) selects the most suitable expert at each decoding step and (ii) contributes a complementary logit that refines or corrects the selected expert's next-token distribution via logit addition. Unlike existing token-level collaboration methods that rely solely on fixed expert outputs, we provide a theoretical analysis showing that pure expert-only routing is fundamentally limited: unless strong global coverage assumptions hold, it cannot in general realize the optimal decoding policy. By augmenting expert selection with a trainable complementary generator, FusionRoute expands the effective policy class and enables recovery of optimal value functions under mild conditions. Empirically, across both Llama-3 and Gemma-2 families and diverse benchmarks spanning mathematical reasoning, code generation, and instruction following, FusionRoute outperforms both sequence- and token-level collaboration, model merging, and direct fine-tuning, while remaining competitive with domain experts on their respective tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.