LatentMoE: Mixture of Experts 모델에서 FLOP당 및 파라미터당 최적의 정확도를 향한 연구
LatentMoE: Toward Optimal Accuracy per FLOP and Parameter in Mixture of Experts
Mixture of Experts (MoE)는 최첨단 오픈 소스 및 독점 대규모 언어 모델의 핵심 구성 요소로 자리 잡았습니다. 그러나 현재 MoE 아키텍처가 플롭(floating-point operation)당 정확도 및 파라미터당 정확도를 기준으로 얼마나 최적에 가까운지는 여전히 불분명합니다. 본 연구에서는 경험적 및 이론적 고려 사항을 바탕으로 하드웨어-소프트웨어 공동 설계 관점에서 MoE 설계를 재검토합니다. 우리는 다양한 배포 환경에서 발생하는 주요 성능 병목 현상을 분석하고, 이를 바탕으로 시스템적인 설계 탐색을 통해 개발된 새로운 모델 아키텍처인 LatentMoE를 제안합니다. LatentMoE는 컴퓨팅 단위당 최대 정확도를 달성하도록 최적화되었습니다. 최대 950억 개의 파라미터를 사용하고 1조 토큰 이상의 학습 데이터를 활용한 실험적 설계 공간 탐색과 함께, 이론적 분석을 통해 LatentMoE가 표준 MoE 아키텍처보다 FLOP당 정확도 및 파라미터당 정확도 측면에서 일관되게 우수한 성능을 보임을 확인했습니다. 뛰어난 성능을 바탕으로 LatentMoE 아키텍처는 Nemotron-3 Super 및 Ultra 모델의 핵심 아키텍처로 채택되었으며, Nvidia et al. (arXiv:2512.20856)에서 보고된 바와 같이 더 큰 규모로 확장되었습니다. 여기에는 더 긴 토큰 시퀀스와 더 큰 모델 크기가 포함됩니다.
Mixture of Experts (MoEs) have become a central component of many state-of-the-art open-source and proprietary large language models. Despite their widespread adoption, it remains unclear how close existing MoE architectures are to optimal with respect to inference cost, as measured by accuracy per floating-point operation and per parameter. In this work, we revisit MoE design from a hardware-software co-design perspective, grounded in empirical and theoretical considerations. We characterize key performance bottlenecks across diverse deployment regimes, spanning offline high-throughput execution and online, latency-critical inference. Guided by these insights, we introduce LatentMoE, a new model architecture resulting from systematic design exploration and optimized for maximal accuracy per unit of compute. Empirical design space exploration at scales of up to 95B parameters and over a 1T-token training horizon, together with supporting theoretical analysis, shows that LatentMoE consistently outperforms standard MoE architectures in terms of accuracy per FLOP and per parameter. Given its strong performance, the LatentMoE architecture has been adopted by the flagship Nemotron-3 Super and Ultra models and scaled to substantially larger regimes, including longer token horizons and larger model sizes, as reported in Nvidia et al. (arXiv:2512.20856).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.