2603.12645v1 Mar 13, 2026 cs.LG

LightMoE: 전문가 대체(Expert Replacing)를 통한 Mixture-of-Experts 모델의 불필요성 감소

LightMoE: Reducing Mixture-of-Experts Redundancy through Expert Replacing

Zhiwei Hao
Zhiwei Hao
Citations: 459
h-index: 12
Jianyuan Guo
Jianyuan Guo
Citations: 27
h-index: 3
Han Hu
Han Hu
Citations: 195
h-index: 5
Jiawei Hao
Jiawei Hao
Citations: 40
h-index: 1
Li Shen
Li Shen
Citations: 13
h-index: 2
Yong Luo
Yong Luo
Citations: 550
h-index: 12
Dan Zeng
Dan Zeng
Citations: 13
h-index: 2

Mixture-of-Experts (MoE) 기반의 대규모 언어 모델(LLM)은 뛰어난 성능과 계산 효율성을 보여주었습니다. 그러나 이러한 모델의 배포는 종종 상당한 메모리 요구 사항으로 인해 제한됩니다. 이는 주로 수많은 전문가 모듈을 로드해야 하기 때문입니다. 기존의 전문가 압축 기술인 가지치기(pruning) 또는 병합(merging)은 이러한 문제를 완화하려고 시도하지만, 종종 되돌릴 수 없는 지식 손실이나 높은 훈련 오버헤드를 발생시킵니다. 본 논문에서는 전문가 대체(expert replacing)라는 새로운 전문가 압축 패러다임을 제안합니다. 이 패러다임은 불필요한 전문가를 파라미터 효율적인 모듈로 대체하고, 낮은 훈련 비용으로 해당 모듈의 기능을 복원합니다. 간단한 기본 모델로도 유망한 성능을 얻을 수 있음을 확인했습니다. 이 기반을 바탕으로, 본 논문에서는 적응형 전문가 선택, 계층적 전문가 구성, 그리고 점진적인 복구 전략을 도입하여 패러다임을 향상시킨 LightMoE 프레임워크를 소개합니다. 실험 결과에 따르면, LightMoE는 30%의 압축률에서 LoRA 미세 조정과 동등한 성능을 보입니다. 더욱 공격적인 50%의 압축률에서도 기존 방법보다 우수한 성능을 보이며, 5가지 다양한 작업에서 평균 5.6%의 성능 향상을 달성합니다. 이러한 결과는 LightMoE가 메모리 효율성, 훈련 효율성 및 모델 성능 간의 균형을 최적으로 맞춘다는 것을 보여줍니다.

Original Abstract

Mixture-of-Experts (MoE) based Large Language Models (LLMs) have demonstrated impressive performance and computational efficiency. However, their deployment is often constrained by substantial memory demands, primarily due to the need to load numerous expert modules. While existing expert compression techniques like pruning or merging attempt to mitigate this, they often suffer from irreversible knowledge loss or high training overhead. In this paper, we propose a novel expert compression paradigm termed expert replacing, which replaces redundant experts with parameter-efficient modules and recovers their capabilities with low training costs. We find that even a straightforward baseline of this paradigm yields promising performance. Building on this foundation, we introduce LightMoE, a framework that enhances the paradigm by introducing adaptive expert selection, hierarchical expert construction, and an annealed recovery strategy. Experimental results show that LightMoE matches the performance of LoRA fine-tuning at a 30% compression ratio. Even under a more aggressive 50% compression rate, it outperforms existing methods and achieves average performance improvements of 5.6% across five diverse tasks. These findings demonstrate that LightMoE strikes a superior balance among memory efficiency, training efficiency, and model performance.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!