MoBiE: 사후 양자화 하에서의 이진 전문가 혼합 모델의 효율적인 추론
MoBiE: Efficient Inference of Mixture of Binary Experts under Post-Training Quantization
Mixture-of-Experts (MoE) 기반의 대규모 언어 모델(LLM)은 뛰어난 성능을 제공하지만, 높은 메모리 및 계산 비용이 단점입니다. 가중치 이진화는 극단적인 효율성을 제공하지만, 기존의 밀집 LLM을 위한 이진화 방법은 MoE의 특성적인 문제, 즉 전문가 간의 중복성, 작업에 독립적인 중요도 추정, 양자화로 인한 라우팅 변화에 어려움을 겪습니다. 이에, 우리는 MoE 기반 LLM에 특화된 최초의 이진화 프레임워크인 MoBiE를 제안합니다. MoBiE는 다음과 같은 세 가지 핵심 혁신을 기반으로 합니다. 1. 공동 특이값 분해(SVD)를 사용하여 전문가 간의 중복성을 줄입니다. 2. 로컬 헤세스(Hessian) 메트릭에 전역 손실 기울기를 통합하여 가중치 중요도 추정을 향상시킵니다. 3. 입력의 영 공간에 의해 안내되는 오류 제약을 도입하여 라우팅 왜곡을 완화합니다. 주목할 점은 MoBiE가 이러한 최적화를 달성하면서도 추가적인 저장 공간 오버헤드를 발생시키지 않아 효율성과 모델 성능 간의 균형을 유지한다는 것입니다. 광범위한 실험 결과, MoBiE는 다양한 MoE 기반 LLM 및 벤치마크에서 최첨단 이진화 방법보다 일관되게 우수한 성능을 보입니다. 예를 들어, Qwen3-30B-A3B 모델에서 MoBiE는 퍼플렉시티를 52.2% 줄이고, 평균 제로샷 성능을 43.4% 향상시키며, 추론 속도를 2배 이상 향상시키고, 양자화 시간을 더욱 단축합니다. 코드 및 추가 정보는 다음 주소에서 확인할 수 있습니다: https://github.com/Kishon-zzx/MoBiE.
Mixture-of-Experts (MoE) based large language models (LLMs) offer strong performance but suffer from high memory and computation costs. Weight binarization provides extreme efficiency, yet existing binary methods designed for dense LLMs struggle with MoE-specific issues, including cross-expert redundancy, task-agnostic importance estimation, and quantization-induced routing shifts. To this end, we propose MoBiE, the first binarization framework tailored for MoE-based LLMs. MoBiE is built on three core innovations: 1. using joint SVD decomposition to reduce cross-expert redundancy; 2. integrating global loss gradients into local Hessian metrics to enhance weight importance estimation; 3. introducing an error constraint guided by the input null space to mitigate routing distortion. Notably, MoBiE achieves these optimizations while incurring no additional storage overhead, striking a balance between efficiency and model performance. Extensive experiments demonstrate that MoBiE consistently outperforms state-of-the-art binary methods across multiple MoE-based LLMs and benchmarks. For example, on Qwen3-30B-A3B, MoBiE reduces perplexity by 52.2$\%$, improves average zero-shot performance by 43.4$\%$, achieves over 2 $\times$ inference speedup, and further shortens quantization time. The code is available at https://github.com/Kishon-zzx/MoBiE.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.