범용 전문가 혼합: 깊이-너비 변환을 통한 가상 너비 확장
Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation
Mixture-of-Experts (MoE)는 모델 용량을 토큰별 연산과 분리하지만, 여전히 깊이와 너비의 물리적 크기에 의해 확장성이 제한됩니다. 이를 극복하기 위해, 우리는 새로운 확장 차원인 '가상 너비(Virtual Width)'를 도입한 MoE의 일반화 버전인 Mixture of Universal Experts (MOUE)를 제안합니다. 일반적으로 MOUE는 각 레이어에서 레이어에 독립적인 전문가 풀을 재사용하여, 고정된 토큰별 활성화 예산 내에서 깊이를 가상 너비로 변환하는 것을 목표로 합니다. 그러나 두 가지 과제가 남아 있습니다. 첫째는 재귀적인 전문가 재사용으로 인한 라우팅 경로 폭발, 둘째는 재사용으로 인한 노출과 기존의 로드 밸런싱 목표 간의 불일치입니다. 우리는 이러한 문제를 해결하기 위해 다음 세 가지 핵심 구성 요소를 사용합니다. 첫째, 구조화된 전문가 공유를 위한 Staggered Rotational Topology, 둘째, 깊이를 고려한 노출 보정을 위한 Universal Expert Load Balance, 셋째, 일관된 다단계 라우팅을 위한 가벼운 경로 상태를 가진 Universal Router입니다. 실험적으로, MOUE는 다양한 확장 환경에서 동일한 MoE 모델을 기준으로 최대 1.3%의 성능 향상을 보이며, 기존 MoE 모델의 점진적인 변환을 통해 최대 4.2%의 성능 향상을 가능하게 하며, MoE 아키텍처에 대한 새로운 확장 차원을 제시합니다.
Mixture-of-Experts (MoE) decouples model capacity from per-token computation, yet their scalability remains limited by the physical dimensions of depth and width. To overcome this, we propose Mixture of Universal Experts (MOUE),a MoE generalization introducing a novel scaling dimension: Virtual Width. In general, MoUE aims to reuse a universal layer-agnostic expert pool across layers, converting depth into virtual width under a fixed per-token activation budget. However, two challenges remain: a routing path explosion from recursive expert reuse, and a mismatch between the exposure induced by reuse and the conventional load-balancing objectives. We address these with three core components: a Staggered Rotational Topology for structured expert sharing, a Universal Expert Load Balance for depth-aware exposure correction, and a Universal Router with lightweight trajectory state for coherent multi-step routing. Empirically, MoUE consistently outperforms matched MoE baselines by up to 1.3% across scaling regimes, enables progressive conversion of existing MoE checkpoints with up to 4.2% gains, and reveals a new scaling dimension for MoE architectures.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.