언어 모델링을 위한 이질적인 그룹 전문가 혼합 모델
Mixture of Heterogeneous Grouped Experts for Language Modeling
혼합 전문가(MoE) 기반의 대규모 언어 모델(LLM)은 효율적인 성능 확장을 가능하게 하여 산업 분야에서 중요한 역할을 합니다. 그러나 일반적인 MoE는 전문가의 크기를 균일하게 설정하여, 토큰 레벨의 복잡성 변화에 따라 컴퓨팅 비용을 조정하는 데 어려움이 있습니다. 이질적인 전문가 아키텍처는 전문가 크기를 다양화하여 이러한 문제를 해결하려고 시도하지만, 종종 GPU 활용 불균형 및 비효율적인 파라미터 활용과 같은 심각한 시스템 수준의 문제를 야기하여 실제 적용에 어려움을 겪습니다. 본 연구에서는 이론적인 이질성과 안정적인 산업 적용 간의 간극을 해소하기 위해, 유연하고 자원 인식적인 전문가 조합을 가능하게 하는 2단계 라우팅 메커니즘을 도입한 혼합 이질 그룹 전문가(MoHGE) 모델을 제안합니다. 추론 효율성을 최적화하기 위해, 작업 난이도에 따라 토큰을 가장 효율적인 파라미터 그룹으로 동적으로 유도하는 그룹 기반 보조 손실 함수를 제안합니다. 또한, GPU 부하 균형이라는 중요한 배포 문제를 해결하기 위해, 모든 크기의 그룹을 분리하는 할당 전략과 그룹 내 전문가 보조 손실 함수를 도입하여 GPU 전체에 균일한 컴퓨팅 분포를 보장합니다. 광범위한 실험 결과는 MoHGE가 MoE 아키텍처와 동등한 성능을 유지하면서 전체 파라미터 수를 약 20% 줄이고 GPU 활용률을 균형 있게 유지함을 보여줍니다. 본 연구는 자원 효율적인 MoE 설계의 확장 가능한 패러다임을 제시하며, 실제 시나리오에서 추론 비용을 최적화하는 실용적인 솔루션을 제공합니다.
Large Language Models (LLMs) based on Mixture-of-Experts (MoE) are pivotal in industrial applications for their ability to scale performance efficiently. However, standard MoEs enforce uniform expert sizes,creating a rigidity that fails to align computational costs with varying token-level complexity. While heterogeneous expert architectures attempt to address this by diversifying expert sizes, they often suffer from significant system-level challenges, specifically unbalanced GPU utilization and inefficient parameter utilization, which hinder practical deployment. To bridge the gap between theoretical heterogeneity and robust industrial application, we propose Mixture of Heterogeneous Grouped Experts (MoHGE) which introduces a two-level routing mechanism to enable flexible, resource-aware expert combinations. To optimize inference efficiency, we propose a Group-Wise Auxiliary Loss, which dynamically steers tokens to the most parameter-efficient expert groups based on task difficulty. To address the critical deployment challenge of GPU load balancing, we introduce an All-size Group-decoupling Allocation strategy coupled with an Intra-Group Experts Auxiliary Loss. These mechanisms collectively ensure uniform computation distribution across GPUs. Extensive evaluations demonstrate that MoHGE matches the performance of MoE architectures while reducing the total parameters by approximately 20% and maintaining balanced GPU utilization. Our work establishes a scalable paradigm for resource-efficient MoE design, offering a practical solution for optimizing inference costs in real-world scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.