전문가 활성화 패턴을 활용한 다중 노드 혼합 전문가 추론 확장
Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns
최근의 최첨단(SOTA) 대규모 언어 모델(LLM)은 모델 용량을 확장하면서 토큰당 연산량을 비례적으로 증가시키지 않는 혼합 전문가(MoE) 아키텍처를 사용하며, 이를 통해 고품질의 결과를 생성하면서도 관리 가능한 서비스 비용을 유지합니다. 그러나 다중 노드 환경에서 토큰이 항상 로컬 전문가에게 라우팅된다는 보장이 없기 때문에, 특히 전문가 부하 불균형과 비효율적인 토큰 라우팅으로 인해 MoE 추론의 확장성이 근본적으로 제약됩니다. 이는 상당한 노드 간 전체 연결 통신 오버헤드를 발생시킵니다. 본 연구에서는 이러한 문제점을 체계적으로 분석하기 위해, Llama 4 Maverick, DeepSeek V3-671B, Qwen3-230B-A22B와 같은 최첨단 오픈 소스 MoE 모델을 다양한 데이터셋에 적용하여 프로파일링을 수행하고, 10만 건 이상의 실제 전문가 활성화 추적 데이터를 수집했습니다. 전문가 활성화 패턴을 분석한 결과, 모든 최첨단 MoE 모델에서 다음과 같은 특징들이 지속적으로 나타나는 것을 확인했습니다. 즉, 전문가 부하 불균형, 작업 유형(코드, 수학, 채팅, 일반)에 따라 전문가의 활성화 빈도가 달라지는 도메인 특화 활성화, 그리고 프리필(prefill) 및 디코딩(decode) 전문가 활성화 간의 강한 상관관계입니다. 이러한 분석 결과를 바탕으로, 워크로드 인지 마이크로 배치 그룹화 및 전문가 배치 전략을 제안하여 토큰이 목적 전문가에 최대한 가깝게 위치하도록 하여 노드 간 통신을 줄입니다. 다양한 모델과 데이터셋에 대한 실험 결과, 제안된 최적화 기법은 전체 연결 통신 데이터를 최대 20%까지 줄여 MoE 디코딩 지연 시간을 단축하고 가속기 활용률을 향상시키는 효과를 보였습니다.
Most recent state-of-the-art (SOTA) large language models (LLMs) use Mixture-of-Experts (MoE) architectures to scale model capacity without proportional per-token compute, enabling higher-quality outputs at manageable serving costs. However, MoE inference at scale is fundamentally bottlenecked by expert load imbalance and inefficient token routing, especially in multi-node deployments where tokens are not guaranteed to be routed to local experts, resulting in significant inter-node all-to-all communication overhead. To systematically characterize these challenges, we profile SOTA open-source MoE models, including Llama 4 Maverick, DeepSeek V3-671B, and Qwen3-230B-A22B, on various datasets and collected over 100k real expert activation traces. Upon studying the expert activation patterns, we uncover various persistent properties across all the frontier MoE models: variable expert load imbalance, domain-specific expert activation where expert popularity shifts across task families (code, math, chat, general), and a strong correlation between prefill and decode expert activations. Motivated by these findings, we propose workload-aware micro-batch grouping and an expert placement strategy to maximize token locality to the destination expert, thereby reducing inter-node communication. Across models and datasets, these optimizations help reduce all2all communication data up to 20, resulting in lower MoE decode latency and better accelerator utilization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.