멀티모달 LLM을 활용한 신뢰성 있는 시각 질의응답 시스템에서 양자화 기법이 미치는 영향 평가
Evaluating the Impact of Post-Training Quantization on Reliable VQA with Multimodal LLMs
멀티모달 대규모 언어 모델(MLLM)은 신뢰성과 효율성이 중요한 다양한 분야에 점점 더 많이 활용되고 있습니다. 그러나 현재 모델들은 여전히 과도한 확신을 가지고 부정확한 답변을 생성하는 경향이 있습니다. 동시에, 모델의 큰 크기로 인해 엣지 장치에 배포하는 데 어려움이 있어 압축이 필요합니다. 본 연구에서는 양자화 기법을 적용했을 때 정확도와 신뢰성에 미치는 영향을 분석하여 이러한 두 가지 과제를 동시에 해결하는 방안을 모색합니다. Qwen2-VL-7B 및 Idefics3-8B라는 두 가지 MLLM 모델을 데이터 없이(HQQ) 및 데이터 기반(MBQ) 방법으로 다양한 비트 폭으로 양자화하여 성능을 평가했습니다. 양자화로 인해 발생하는 신뢰성 저하를 완화하기 위해, 양자화된 멀티모달 환경에 적합하도록 Selector 신뢰도 추정기를 개선하고 다양한 양자화 수준 및 이상 데이터(OOD) 시나리오에서 그 견고성을 테스트했습니다. 연구 결과, 양자화는 정확도와 신뢰성 모두를 저하시키는 것으로 나타났습니다. 데이터 기반 방법은 이러한 영향을 완화하는 효과가 있습니다. Selector는 신뢰성에 미치는 영향을 크게 줄여줍니다. int4 MBQ와 Selector를 결합한 방법은 가장 우수한 효율성-신뢰성 균형을 제공하며, 약 75%의 메모리 감소로 압축되지 않은 모델의 성능에 근접하는 결과를 보였습니다. 본 연구는 멀티모달 환경에서 양자화와 신뢰성 간의 연관성을 체계적으로 분석한 최초의 연구입니다.
Multimodal Large Language Models (MLLM) are increasingly deployed in domains where both reliability and efficiency are critical. However, current models remain overconfident, producing highly certain but incorrect answers. At the same time, their large size limits deployment on edge devices, necessitating compression. We study the intersection of these two challenges by analyzing how Post-Training Quantization (PTQ) compression affects both accuracy and reliability in Visual Question Answering (VQA). We evaluate two MLLMs, Qwen2-VL-7B and Idefics3-8B, quantized with data-free (HQQ) and data-aware (MBQ) methods across multiple bit widths. To counteract the reduction in reliability caused by quantization, we adapt the Selector confidence estimator for quantized multimodal settings and test its robustness across various quantization levels and out-of-distribution (OOD) scenarios. We find that PTQ degrades both accuracy and reliability. Data-aware methods soften the effect thereof. The Selector substantially mitigates the reliability impact. The combination of int4 MBQ and the Selector achieves the best efficiency-reliability trade-off, closing in on uncompressed performance at approx. 75% less memory demand. Overall, we present the first systematic study linking quantization and reliability in multimodal settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.