2602.11184v2 Jan 30, 2026 cs.LG

KBVQ-MoE: KLT 기반 SVD와 편향 보정 벡터 양자화를 이용한 MoE 대규모 언어 모델

KBVQ-MoE: KLT-guided SVD with Bias-Corrected Vector Quantization for MoE Large Language Models

Xing Hu
Xing Hu
Citations: 188
h-index: 8
Dawei Yang
Dawei Yang
Citations: 232
h-index: 10
Zukang Xu
Zukang Xu
Citations: 102
h-index: 4
Zhixiong Zhao
Zhixiong Zhao
Citations: 4
h-index: 2
Zhixuan Chen
Zhixuan Chen
Citations: 33
h-index: 2

Mixture of Experts (MoE) 모델은 희소 전문가 활성화를 통해 성능을 크게 향상시키면서도 계산 효율성을 유지하여 큰 성공을 거두었습니다. 그러나, 이러한 모델의 거대한 매개변수 크기와 메모리 요구 사항은 제한된 자원을 가진 환경에서의 배포에 큰 어려움을 야기합니다. 벡터 양자화(VQ)는 코드북을 활용하여 대규모 언어 모델(LLM)의 초저비트 압축을 위한 유망한 접근 방식입니다. 여기서 가중치 벡터는 가장 유사한 이산 코드워드에 매핑됩니다. 그러나, MoE 모델에 VQ를 직접 적용하는 경우, 다음과 같은 두 가지 중요한 문제로 인해 성능 저하가 발생합니다. (1) 전문가 간의 중복된 표현으로 인해 VQ는 각 전문가에 대해 유사한 표현을 반복적으로 양자화하여 제한된 코드북 용량을 비효율적으로 사용하게 됩니다. (2) MoE 레이어에서 전문가 결합으로 인해 누적된 출력 편향이 증폭되어 양자화된 출력의 분포 변화를 초래합니다. 이러한 문제를 해결하기 위해, MoE 기반 LLM의 극도로 낮은 비트 양자화를 향상시키는 새로운 VQ 프레임워크인 KBVQ-MoE를 제안합니다. KBVQ-MoE는 다음과 같은 두 가지 기술을 통합합니다. (1) 입력 기반 중복 제거: Karhunen-Loeve 변환(KLT)을 사용하여 주요 가중치 구성 요소를 추출하고 전문가 간에 공유합니다. (2) 편향 보정 출력 안정화: 벡터 양자화는 전문가별(중복되지 않는) 표현에만 적용되며, 양자화된 출력은 채널별 affine 보정을 통해 수정됩니다. 다양한 MoE LLM에 대한 실험 결과, KBVQ-MoE는 기존 양자화 방법에 비해 정확도를 훨씬 더 잘 유지하는 것으로 나타났습니다. 예를 들어, Qwen1.5-MoE-A2.7B 모델의 3비트 양자화는 평균 정확도가 67.99로, FP16 기준인 68.07과 거의 동일합니다. 이는 KBVQ-MoE가 엣지 장치 및 기타 제한된 자원을 가진 플랫폼에 효율적으로 배포될 수 있는 잠재력을 보여줍니다.

Original Abstract

Mixture of Experts (MoE) models have achieved great success by significantly improving performance while maintaining computational efficiency through sparse expert activation. However, their enormous parameter sizes and memory demands pose major challenges for deployment in resource-constrained environments. Vector Quantization (VQ) offers a promising approach for ultra-low-bit compression in Large Language Models (LLMs) by leveraging a codebook, where weight vectors are mapped to the most similar discrete codewords. Yet, directly applying VQ to MoEs often leads to substantial performance degradation due to two critical obstacles: (1) redundant representations among experts cause VQ to repeatedly quantize similar representations for each expert, resulting in inefficient use of limited codebook capacity; and (2) cumulative output bias is amplified by expert aggregation in MoE layers, leading to distributional shifts in the quantized outputs. To address these issues, we propose KBVQ-MoE, a novel VQ framework to enhance extremely low-bit quantization for MoE-based LLMs. KBVQ-MoE integrates two techniques: (1) input-driven redundancy elimination, where a Karhunen-Loeve Transform (KLT) guided singular value decomposition (SVD) extracts dominant weight components and shares them across experts; and (2) bias-corrected output stabilization, where vector quantization is applied only to expert-specific (non-redundant) representations and the quantized outputs are corrected via channel-wise affine compensation. Experiments on various MoE LLMs demonstrate that KBVQ-MoE preserves accuracy substantially better than existing quantization methods. For example, 3-bit quantization of Qwen1.5-MoE-A2.7B achieves an average accuracy of 67.99, nearly identical to the FP16 baseline of 68.07, underscoring KBVQ-MoE's potential for efficient deployment on edge devices and other resource-constrained platforms.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!