2604.08133v1 Apr 09, 2026 cs.LG

Alloc-MoE: 효율적인 Mixture-of-Experts 추론을 위한 예산 기반 전문가 활성화 할당

Alloc-MoE: Budget-Aware Expert Activation Allocation for Efficient Mixture-of-Experts Inference

Zhaoning Zhang
Zhaoning Zhang
Citations: 18
h-index: 3
Baihui Liu
Baihui Liu
Citations: 3
h-index: 1
Kaiyuan Tian
Kaiyuan Tian
Citations: 52
h-index: 3
Linbo Qiao
Linbo Qiao
Citations: 1
h-index: 1
Dongsheng Li
Dongsheng Li
Citations: 7
h-index: 2
Wei Wang
Wei Wang
Citations: 31
h-index: 2

Mixture-of-Experts (MoE)는 희소 활성화 메커니즘 덕분에 대규모 언어 모델 확장에 주도적인 아키텍처로 자리 잡았습니다. 그러나 많은 수의 전문가 활성화는 추론 과정에서 심각한 지연 병목 현상을 야기하며, 특히 자원 제약적인 환경에서 더욱 두드러집니다. 기존의 전문가 활성화 감소 방법은 모델 성능 저하를 초래할 수 있습니다. 본 연구에서는 전문가 활성화 수에 대한 제약 조건인 "활성화 예산" 개념을 도입하고, 성능 저하를 최소화하기 위해 레이어 및 토큰 수준에서 예산 할당을 조정하는 통합 프레임워크인 Alloc-MoE를 제안합니다. 레이어 수준에서는 민감도 프로파일링 및 동적 프로그래밍을 활용하여 레이어 전체에 걸쳐 최적의 전문가 활성화 할당을 결정하는 Alloc-L을 도입합니다. 토큰 수준에서는 라우팅 점수를 기반으로 활성화를 동적으로 재분배하여 지연 시간을 증가시키지 않으면서 예산 할당을 최적화하는 Alloc-T를 제안합니다. 다양한 MoE 모델에 대한 광범위한 실험 결과, Alloc-MoE는 제한된 활성화 예산 하에서도 모델 성능을 유지함을 보여줍니다. 특히, Alloc-MoE는 DeepSeek-V2-Lite 모델에서 원래 예산의 절반으로 prefill 속도는 1.15배, decode 속도는 1.34배 향상되었습니다.

Original Abstract

Mixture-of-Experts (MoE) has become a dominant architecture for scaling large language models due to their sparse activation mechanism. However, the substantial number of expert activations creates a critical latency bottleneck during inference, especially in resource-constrained deployment scenarios. Existing approaches that reduce expert activations potentially lead to severe model performance degradation. In this work, we introduce the concept of \emph{activation budget} as a constraint on the number of expert activations and propose Alloc-MoE, a unified framework that optimizes budget allocation coordinately at both the layer and token levels to minimize performance degradation. At the layer level, we introduce Alloc-L, which leverages sensitivity profiling and dynamic programming to determine the optimal allocation of expert activations across layers. At the token level, we propose Alloc-T, which dynamically redistributes activations based on routing scores, optimizing budget allocation without increasing latency. Extensive experiments across multiple MoE models demonstrate that Alloc-MoE maintains model performance under a constrained activation budget. Especially, Alloc-MoE achieves $1.15\times$ prefill and $1.34\times$ decode speedups on DeepSeek-V2-Lite at half of the original budget.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!