FusionRoute를 통한 토큰 단위 LLM 협업
Token-Level LLM Collaboration via FusionRoute
대규모 언어 모델(LLM)은 다양한 도메인에 걸쳐 강점을 보입니다. 그러나 단일 범용 모델로 이러한 모든 도메인에서 우수한 성능을 달성하려면, 일반적으로 훈련 및 배포 비용이 감당하기 힘들 정도로 큰 규모로 확장해야 합니다. 반면, 더 작은 규모의 도메인 특화 모델은 훨씬 효율적이지만, 훈련 분포를 벗어난 영역에서는 일반화하는 데 어려움을 겪습니다. 이러한 딜레마를 해결하기 위해, 우리는 견고하고 효과적인 토큰 단위 다중 LLM 협업 프레임워크인 FusionRoute를 제안합니다. 이 프레임워크에서는 경량 라우터가 (i) 각 디코딩 단계에서 가장 적합한 전문가를 선택하는 동시에, (ii) 로짓 합산을 통해 선택된 전문가의 다음 토큰 분포를 정제하거나 수정하는 보완 로짓(complementary logit)을 제공합니다. 고정된 전문가 출력에만 의존하는 기존의 토큰 단위 협업 방식과 달리, 우리는 순수 전문가 라우팅이 근본적인 한계를 가진다는 이론적 분석을 제시합니다. 즉, 강력한 전역 커버리지 가정이 성립하지 않는 한, 일반적으로 최적의 디코딩 정책을 실현할 수 없습니다. 전문가 선택 과정에 훈련 가능한 보완 생성기를 결합함으로써, FusionRoute는 유효 정책 범위를 확장하고 완화된 조건 하에서도 최적 가치 함수를 복원할 수 있게 합니다. 실증적으로 Llama-3 및 Gemma-2 제품군과 수학적 추론, 코드 생성, 지시 이행을 포함한 다양한 벤치마크에서, FusionRoute는 시퀀스 및 토큰 단위 협업, 모델 병합, 직접 미세 조정(fine-tuning) 방식보다 뛰어난 성능을 보였으며, 각 작업에서 도메인 전문가 모델과 대등한 경쟁력을 유지했습니다.
Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a single general-purpose model typically requires scaling to sizes that are prohibitively expensive to train and deploy. On the other hand, while smaller domain-specialized models are much more efficient, they struggle to generalize beyond their training distributions. To address this dilemma, we propose FusionRoute, a robust and effective token-level multi-LLM collaboration framework in which a lightweight router simultaneously (i) selects the most suitable expert at each decoding step and (ii) contributes a complementary logit that refines or corrects the selected expert's next-token distribution via logit addition. Unlike existing token-level collaboration methods that rely solely on fixed expert outputs, we provide a theoretical analysis showing that pure expert-only routing is fundamentally limited: unless strong global coverage assumptions hold, it cannot in general realize the optimal decoding policy. By augmenting expert selection with a trainable complementary generator, FusionRoute expands the effective policy class and enables recovery of optimal value functions under mild conditions. Empirically, across both Llama-3 and Gemma-2 families and diverse benchmarks spanning mathematical reasoning, code generation, and instruction following, FusionRoute outperforms both sequence- and token-level collaboration, model merging, and direct fine-tuning, while remaining competitive with domain experts on their respective tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.