Alloc-MoE: 효율적인 Mixture-of-Experts 추론을 위한 예산 기반 전문가 활성화 할당
Alloc-MoE: Budget-Aware Expert Activation Allocation for Efficient Mixture-of-Experts Inference
Mixture-of-Experts (MoE)는 희소 활성화 메커니즘 덕분에 대규모 언어 모델 확장에 주도적인 아키텍처로 자리 잡았습니다. 그러나 많은 수의 전문가 활성화는 추론 과정에서 심각한 지연 병목 현상을 야기하며, 특히 자원 제약적인 환경에서 더욱 두드러집니다. 기존의 전문가 활성화 감소 방법은 모델 성능 저하를 초래할 수 있습니다. 본 연구에서는 전문가 활성화 수에 대한 제약 조건인 "활성화 예산" 개념을 도입하고, 성능 저하를 최소화하기 위해 레이어 및 토큰 수준에서 예산 할당을 조정하는 통합 프레임워크인 Alloc-MoE를 제안합니다. 레이어 수준에서는 민감도 프로파일링 및 동적 프로그래밍을 활용하여 레이어 전체에 걸쳐 최적의 전문가 활성화 할당을 결정하는 Alloc-L을 도입합니다. 토큰 수준에서는 라우팅 점수를 기반으로 활성화를 동적으로 재분배하여 지연 시간을 증가시키지 않으면서 예산 할당을 최적화하는 Alloc-T를 제안합니다. 다양한 MoE 모델에 대한 광범위한 실험 결과, Alloc-MoE는 제한된 활성화 예산 하에서도 모델 성능을 유지함을 보여줍니다. 특히, Alloc-MoE는 DeepSeek-V2-Lite 모델에서 원래 예산의 절반으로 prefill 속도는 1.15배, decode 속도는 1.34배 향상되었습니다.
Mixture-of-Experts (MoE) has become a dominant architecture for scaling large language models due to their sparse activation mechanism. However, the substantial number of expert activations creates a critical latency bottleneck during inference, especially in resource-constrained deployment scenarios. Existing approaches that reduce expert activations potentially lead to severe model performance degradation. In this work, we introduce the concept of \emph{activation budget} as a constraint on the number of expert activations and propose Alloc-MoE, a unified framework that optimizes budget allocation coordinately at both the layer and token levels to minimize performance degradation. At the layer level, we introduce Alloc-L, which leverages sensitivity profiling and dynamic programming to determine the optimal allocation of expert activations across layers. At the token level, we propose Alloc-T, which dynamically redistributes activations based on routing scores, optimizing budget allocation without increasing latency. Extensive experiments across multiple MoE models demonstrate that Alloc-MoE maintains model performance under a constrained activation budget. Especially, Alloc-MoE achieves $1.15\times$ prefill and $1.34\times$ decode speedups on DeepSeek-V2-Lite at half of the original budget.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.