VEQ: 모달리티 적응 양자화 - MoE 기반 비전-언어 모델
VEQ: Modality-Adaptive Quantization for MoE Vision-Language Models
혼합 전문가(MoE) 기반 비전-언어 모델(VLM)은 뛰어난 성능을 제공하지만, 막대한 메모리와 계산 비용으로 인해 압축이 필수적입니다. 양자화 후 학습(PTQ)은 이러한 과도한 메모리와 계산 부담을 해결하는 효과적인 학습 불필요 기술입니다. 기존의 양자화 방식은 비전과 언어 토큰 간의 고유한 차이점과 다양한 전문가의 불균등한 기여라는 두 가지 중요한 이질성을 고려하지 못한다는 한계가 있습니다. 이러한 격차를 해소하기 위해, 본 논문에서는 교차 모달 차이와 전문가 간의 이질성을 동시에 고려하는 이중 인식 양자화 프레임워크인 Visual Expert Quantization (VEQ)을 제안합니다. 구체적으로, VEQ는 1) 전문가 활성화 빈도를 활용하여 중요한 전문가의 오류 최소화를 우선시하는 모달리티-전문가 인식 양자화, 그리고 2) 토큰-전문가 친화도와 모달리티 정보를 통합하여 향상된 헤세 행렬을 구성하고, 이를 통해 보정 과정을 안내하는 모달리티-친화도 인식 양자화를 포함합니다. 다양한 벤치마크에서의 광범위한 실험 결과, VEQ는 최첨단 모델을 능가하는 뛰어난 성능을 보임을 입증합니다. 특히, W3A16 설정에서 VEQ는 기존의 최첨단 양자화 방법에 비해 Kimi-VL에서 평균 정확도가 2.04% 향상되고, Qwen3-VL에서 3.09% 향상되는 상당한 성능 향상을 보여주며, 다양한 다중 모드 작업에서 우수한 견고성을 입증합니다. 본 연구의 코드는 https://github.com/guangshuoqin/VEQ 에서 확인할 수 있습니다.
Mixture-of-Experts(MoE) Vision-Language Models (VLMs) offer remarkable performance but incur prohibitive memory and computational costs, making compression essential. Post-Training Quantization (PTQ) is an effective training-free technique to address the massive memory and computation overhead. Existing quantization paradigms fall short as they are oblivious to two critical forms of heterogeneity: the inherent discrepancy between vision and language tokens, and the non-uniform contribution of different experts. To bridge this gap, we propose Visual Expert Quantization (VEQ), a dual-aware quantization framework designed to simultaneously accommodate cross-modal differences and heterogeneity between experts. Specifically, VEQ incorporates 1)Modality-expert-aware Quantization, which utilizes expert activation frequency to prioritize error minimization for pivotal experts, and 2)Modality-affinity-aware Quantization, which constructs an enhanced Hessian matrix by integrating token-expert affinity with modality information to guide the calibration process. Extensive experiments across diverse benchmarks verify that VEQ consistently outperforms state-of-the-art baselines. Specifically, under the W3A16 configuration, our method achieves significant average accuracy gains of 2.04\% on Kimi-VL and 3.09\% on Qwen3-VL compared to the previous SOTA quantization methods, demonstrating superior robustness across various multimodal tasks. Our code will be available at https://github.com/guangshuoqin/VEQ.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.