2601.14327v3 Jan 20, 2026 cs.LG

Yuan3.0 Ultra: 1조 파라미터를 갖는 기업용 MoE 대규모 언어 모델

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Sean Wang
Sean Wang
Citations: 5
h-index: 1
Louie Li
Louie Li
Citations: 1
h-index: 1
Darcy Chen
Darcy Chen
Citations: 1
h-index: 1
Allen Wang
Allen Wang
Citations: 1
h-index: 1
Jiangang Luo
Jiangang Luo
Citations: 100
h-index: 3
Xudong Zhao
Xudong Zhao
Citations: 60
h-index: 5
Gawain Ma
Gawain Ma
Citations: 1
h-index: 1
Marcus Mao
Marcus Mao
Citations: 1
h-index: 1
Claire Wang
Claire Wang
Citations: 10
h-index: 2
Hunter He
Hunter He
Citations: 1
h-index: 1
Logan Chen
Logan Chen
Citations: 2
h-index: 1
Qasim Meng
Qasim Meng
Citations: 1
h-index: 1
Penn Zheng
Penn Zheng
Citations: 4
h-index: 1
O. Zhu
O. Zhu
Citations: 20
h-index: 1
Tong Yu
Tong Yu
Citations: 33
h-index: 2
Carolyn Wang
Carolyn Wang
Citations: 89
h-index: 3
Z. Zhang
Z. Zhang
Citations: 2
h-index: 1
Leo Zhang
Leo Zhang
Citations: 10
h-index: 1
J. Gong
J. Gong
Citations: 19
h-index: 2
Yuan Wu
Yuan Wu
Citations: 158
h-index: 5
Bach Li
Bach Li
Citations: 0
h-index: 0
J. Jia
J. Jia
Citations: 4
h-index: 1
Jason Z Wang
Jason Z Wang
Citations: 92
h-index: 4
C. Shen
C. Shen
Citations: 0
h-index: 0
Daniel Zhao
Daniel Zhao
Citations: 13
h-index: 3
Joseph J. Shen
Joseph J. Shen
Citations: 151
h-index: 4

본 논문에서는 688억 개의 활성화 파라미터와 총 1010억 개의 파라미터를 가진 오픈 소스 Mixture-of-Experts (MoE) 대규모 언어 모델인 Yuan3.0 Ultra를 소개합니다. Yuan3.0 Ultra는 일반적인 작업에서의 경쟁력을 유지하면서 기업 환경에서의 작업 성능을 향상하도록 특별히 설계되었습니다. MoE LLM의 사전 학습 단계에 적용될 수 있도록 Layer-Adaptive Expert Pruning (LAEP) 알고리즘을 제안합니다. 기존의 전문가 가지치기 방법이 주로 사후 학습 단계에서 작동하는 것과 달리, 제안된 알고리즘은 활용도가 낮은 전문가를 선택적으로 제거하고 토큰 분포 통계에 따라 컴퓨팅 장치 간에 전문가를 재구성하여 학습 효율성을 향상시킵니다. 광범위한 실험 결과, LAEP가 모델 크기를 효과적으로 줄이고 사전 학습 효율성을 크게 향상시키는 것을 보여줍니다. 1515억 개의 파라미터로 Yuan3.0 Ultra를 처음부터 사전 학습할 때, 이 알고리즘은 사전 학습 효율성을 49% 향상시키고 총 파라미터 수를 33.3% 줄이면서 모델의 뛰어난 다중 도메인 성능을 유지합니다. Docmatix, ChatRAG, SummEval 및 MMTab을 포함한 기업 환경 벤치마크에서 Yuan3.0 Ultra는 최고 수준의 정확도를 달성했습니다. 모델 및 코드는 https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra 에서 공개적으로 이용할 수 있습니다.

Original Abstract

We introduce Yuan3.0 Ultra, an open-source Mixture-of-Experts (MoE) large language model featuring 68.8B activated parameters and 1010B total parameters, specially designed to enhance performance on enterprise scenarios tasks while maintaining competitive capabilities on general purpose tasks. We propose Layer-Adaptive Expert Pruning (LAEP) algorithm designed for the pre-training stage of MoE LLMs. In contrast to previous expert pruning approaches that operate primarily in the post-training phase, the proposed algorithm enhances training efficiency by selectively pruning underutilized experts and reorganizing experts across computing devices according to token distribution statistics. Comprehensive experiments demonstrate that LAEP effectively reduces model size and substantially improves pre-training efficiency. When pre-training Yuan3.0 Ultra from scratch original with 1515B parameters, this algorithm delivers a 49\% boost in pre-training efficiency and a 33.3\% reduction in total parameters, while preserving the model's outstanding multi-domain performance. On enterprise scenario benchmarks including Docmatix, ChatRAG, SummEval and MMTab, Yuan3.0 Ultra achieves leading accuracy. The model and codes are publicly available at https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra.

0 Citations
0 Influential
49.668610017771 Altmetric
248.3 Score
Original PDF
228

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!