Yuan3.0 Ultra: 1조 파라미터를 갖는 기업용 MoE 대규모 언어 모델
Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM
본 논문에서는 688억 개의 활성화 파라미터와 총 1010억 개의 파라미터를 가진 오픈 소스 Mixture-of-Experts (MoE) 대규모 언어 모델인 Yuan3.0 Ultra를 소개합니다. Yuan3.0 Ultra는 일반적인 작업에서의 경쟁력을 유지하면서 기업 환경에서의 작업 성능을 향상하도록 특별히 설계되었습니다. MoE LLM의 사전 학습 단계에 적용될 수 있도록 Layer-Adaptive Expert Pruning (LAEP) 알고리즘을 제안합니다. 기존의 전문가 가지치기 방법이 주로 사후 학습 단계에서 작동하는 것과 달리, 제안된 알고리즘은 활용도가 낮은 전문가를 선택적으로 제거하고 토큰 분포 통계에 따라 컴퓨팅 장치 간에 전문가를 재구성하여 학습 효율성을 향상시킵니다. 광범위한 실험 결과, LAEP가 모델 크기를 효과적으로 줄이고 사전 학습 효율성을 크게 향상시키는 것을 보여줍니다. 1515억 개의 파라미터로 Yuan3.0 Ultra를 처음부터 사전 학습할 때, 이 알고리즘은 사전 학습 효율성을 49% 향상시키고 총 파라미터 수를 33.3% 줄이면서 모델의 뛰어난 다중 도메인 성능을 유지합니다. Docmatix, ChatRAG, SummEval 및 MMTab을 포함한 기업 환경 벤치마크에서 Yuan3.0 Ultra는 최고 수준의 정확도를 달성했습니다. 모델 및 코드는 https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra 에서 공개적으로 이용할 수 있습니다.
We introduce Yuan3.0 Ultra, an open-source Mixture-of-Experts (MoE) large language model featuring 68.8B activated parameters and 1010B total parameters, specially designed to enhance performance on enterprise scenarios tasks while maintaining competitive capabilities on general purpose tasks. We propose Layer-Adaptive Expert Pruning (LAEP) algorithm designed for the pre-training stage of MoE LLMs. In contrast to previous expert pruning approaches that operate primarily in the post-training phase, the proposed algorithm enhances training efficiency by selectively pruning underutilized experts and reorganizing experts across computing devices according to token distribution statistics. Comprehensive experiments demonstrate that LAEP effectively reduces model size and substantially improves pre-training efficiency. When pre-training Yuan3.0 Ultra from scratch original with 1515B parameters, this algorithm delivers a 49\% boost in pre-training efficiency and a 33.3\% reduction in total parameters, while preserving the model's outstanding multi-domain performance. On enterprise scenario benchmarks including Docmatix, ChatRAG, SummEval and MMTab, Yuan3.0 Ultra achieves leading accuracy. The model and codes are publicly available at https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.