2602.05711v1 Feb 05, 2026 cs.CL

OmniMoE: 확장 가능한 원자 전문가 조정을 통한 효율적인 Mixture-of-Experts (MoE) 모델

OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

Yifan Wu
Yifan Wu
Citations: 122
h-index: 6
Jingze Shi
Jingze Shi
Citations: 30
h-index: 3
Zhangyang Peng
Zhangyang Peng
Citations: 17
h-index: 1
Yizhang Zhu
Yizhang Zhu
Citations: 106
h-index: 6
Guang Liu
Guang Liu
Citations: 2
h-index: 1
Yuyu Luo
Yuyu Luo
Citations: 9
h-index: 2

Mixture-of-Experts (MoE) 아키텍처는 파라미터 효율성을 향상시키기 위해 점점 더 세분화된 구조로 발전하고 있습니다. 그러나 기존의 MoE 설계는 전문가의 전문화 수준과 하드웨어 실행 효율성 간의 근본적인 트레이드오프를 가지고 있습니다. 본 논문에서는 전문가의 세분화 수준을 논리적인 극한까지 끌어올리는 시스템-알고리즘 공동 설계 프레임워크인 OmniMoE를 제안합니다. OmniMoE는 벡터 수준의 원자 전문가를 도입하여 단일 MoE 레이어 내에서 확장 가능한 라우팅 및 실행을 가능하게 하며, 동시에 범용 처리를 위한 공유된 Dense MLP 브랜치를 유지합니다. 이러한 원자적인 설계는 용량을 극대화하지만 라우팅 복잡성과 메모리 접근에 심각한 문제를 야기합니다. 이러한 문제를 해결하기 위해 OmniMoE는 시스템-알고리즘 공동 설계를 채택합니다. (i) 대규모 인덱스 공간을 분해하여 라우팅 복잡성을 O(N)에서 O(sqrt(N))으로 줄이는 카테시안 곱 라우터, 그리고 (ii) 전문가 중심 스케줄링을 통해 분산된 메모리 접근 방식을 효율적인 Dense 행렬 연산으로 변환합니다. 7개의 벤치마크에서 검증된 결과, 17억 개의 활성 파라미터를 가진 OmniMoE는 7개의 벤치마크에서 50.9%의 제로샷 정확도를 달성하여, 거친 입자(e.g., DeepSeekMoE) 및 미세 입자(e.g., PEER) 기반 모델을 능가했습니다. 특히, OmniMoE는 PEER에 비해 추론 지연 시간을 73ms에서 6.7ms로 줄여 10.9배의 속도 향상을 보여주며, 대규모 미세 입자 MoE 모델이 빠르고 정확할 수 있음을 입증했습니다. 본 논문의 코드는 https://github.com/flash-algo/omni-moe 에서 공개적으로 이용할 수 있습니다.

Original Abstract

Mixture-of-Experts (MoE) architectures are evolving towards finer granularity to improve parameter efficiency. However, existing MoE designs face an inherent trade-off between the granularity of expert specialization and hardware execution efficiency. We propose OmniMoE, a system-algorithm co-designed framework that pushes expert granularity to its logical extreme. OmniMoE introduces vector-level Atomic Experts, enabling scalable routing and execution within a single MoE layer, while retaining a shared dense MLP branch for general-purpose processing. Although this atomic design maximizes capacity, it poses severe challenges for routing complexity and memory access. To address these, OmniMoE adopts a system-algorithm co-design: (i) a Cartesian Product Router that decomposes the massive index space to reduce routing complexity from O(N) to O(sqrt(N)); and (ii) Expert-Centric Scheduling that inverts the execution order to turn scattered, memory-bound lookups into efficient dense matrix operations. Validated on seven benchmarks, OmniMoE (with 1.7B active parameters) achieves 50.9% zero-shot accuracy across seven benchmarks, outperforming coarse-grained (e.g., DeepSeekMoE) and fine-grained (e.g., PEER) baselines. Crucially, OmniMoE reduces inference latency from 73ms to 6.7ms (a 10.9-fold speedup) compared to PEER, demonstrating that massive-scale fine-grained MoE can be fast and accurate. Our code is open-sourced at https://github.com/flash-algo/omni-moe.

0 Citations
0 Influential
46.269801750788 Altmetric
231.3 Score
Original PDF
104

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!