2604.04356v1 Apr 06, 2026 cs.AI

REAM: 병합을 통한 LLM 전문가 가지치기 성능 향상

REAM: Merging Improves Pruning of Experts in LLMs

Boris Knyazev
Boris Knyazev
Citations: 4
h-index: 1
Alipanah Parviz
Alipanah Parviz
Citations: 429
h-index: 5
Saurav Jha
Saurav Jha
Citations: 4
h-index: 1
M. Hashemzadeh
M. Hashemzadeh
Citations: 62
h-index: 4
Ali Saheb Pasand
Ali Saheb Pasand
Citations: 51
h-index: 2
Min-Joong Lee
Min-Joong Lee
Citations: 68
h-index: 4

혼합 전문가(MoE) 기반의 대규모 언어 모델(LLM)은 현재 가장 뛰어난 성능을 보이는 아키텍처 중 하나입니다. 수백억 개의 파라미터를 가진 가장 큰 모델들은 배포 과정에서 상당한 메모리 문제를 야기합니다. 메모리 요구 사항을 줄이기 위한 전통적인 방법으로는 가중치 가지치기(weight pruning)와 양자화(quantization)가 있습니다. 전문가를 가지치기하는 Router-weighted Expert Activation Pruning (REAP)에서 영감을 받아, 우리는 전문가를 제거하는 대신 그룹화하고 가중치를 병합하여 원래 성능을 더 잘 유지하는 새로운 방법인 Router-weighted Expert Activation Merging (REAM)을 제안합니다. 우리는 다양한 MoE LLM 모델에서 여러 객관식(MC) 질문 답변 및 생성(GEN) 벤치마크를 사용하여 REAM을 REAP 및 기타 기준 모델과 비교 평가했습니다. 우리의 결과는 캘리브레이션 데이터의 구성에 따라 MC 성능과 GEN 성능 사이에 균형이 존재하며, 이 균형의 파레토 최적점을 분석하여 일반, 수학 및 코딩 데이터의 비율을 조절함으로써 REAM이 종종 기준 모델보다 우수한 성능을 보이며, 많은 경우 압축되지 않은 원래 모델과 유사한 성능을 달성함을 보여줍니다.

Original Abstract

Mixture-of-Experts (MoE) large language models (LLMs) are among the top-performing architectures. The largest models, often with hundreds of billions of parameters, pose significant memory challenges for deployment. Traditional approaches to reduce memory requirements include weight pruning and quantization. Motivated by the Router-weighted Expert Activation Pruning (REAP) that prunes experts, we propose a novel method, Router-weighted Expert Activation Merging (REAM). Instead of removing experts, REAM groups them and merges their weights, better preserving original performance. We evaluate REAM against REAP and other baselines across multiple MoE LLMs on diverse multiple-choice (MC) question answering and generative (GEN) benchmarks. Our results reveal a trade-off between MC and GEN performance that depends on the mix of calibration data. By controlling the mix of general, math and coding data, we examine the Pareto frontier of this trade-off and show that REAM often outperforms the baselines and in many cases is comparable to the original uncompressed models.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!