2603.17809v1 Mar 18, 2026 cs.CV

양자화 인식 통합 그래디언트를 활용한 대규모 시각 언어 모델의 세밀한 사후 양자화

Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients

Fanhu Zeng
Fanhu Zeng
Citations: 87
h-index: 6
Hongjian Fang
Hongjian Fang
Citations: 0
h-index: 0
Ziwei Xiang
Ziwei Xiang
Citations: 13
h-index: 1
Rui-Qi Wang
Rui-Qi Wang
Citations: 99
h-index: 3
Renxing Chen
Renxing Chen
Citations: 12
h-index: 2
Yanan Zhu
Yanan Zhu
Citations: 0
h-index: 0
Yi Chen
Yi Chen
Citations: 26
h-index: 2
Peipei Yang
Peipei Yang
Citations: 20
h-index: 3
Xu-Yao Zhang
Xu-Yao Zhang
Citations: 12
h-index: 3

대규모 시각 언어 모델(LVLM)은 다중 모드 상호 작용을 필요로 하는 다양한 하위 작업에서 괄목할 만한 성공을 거두었지만, 이러한 능력은 상당한 계산 및 메모리 오버헤드를 수반하여 실제 배포를 어렵게 합니다. 수많은 가속화 기술 중에서, 사후 양자화는 메모리 비용을 줄이고 추론 속도를 높이는 데 효과적인 방법으로 널리 사용됩니다. 그러나 기존의 LVLM 양자화 방법은 일반적으로 토큰의 민감도를 모드 수준에서 측정하는데, 이는 복잡한 토큰 간 상호 작용을 파악하지 못하고 토큰 수준에서의 양자화 오류를 정량적으로 측정하는 데 한계가 있습니다. 모델 내에서 토큰들이 상호 작용함에 따라 모드 간의 구분이 점차 희미해지므로, 세밀한 보정이 필요합니다. 우리는 기계적 해석에서의 공리적 설명에서 영감을 받아, 양자화 인식 통합 그래디언트(QIG)를 기반으로 하는 세밀한 양자화 전략을 도입합니다. 이 방법은 통합 그래디언트를 활용하여 토큰의 민감도를 정량적으로 평가하고, 모드 수준에서 토큰 수준으로 세분성을 높여 모드 간 및 모드 내 역학을 모두 반영합니다. 다양한 LVLM에 대한 광범위한 실험 결과, W4A8 및 W3A16 설정 모두에서 우리의 방법이 모델 및 벤치마크 전반에 걸쳐 정확도를 향상시키면서도 미미한 지연 시간 오버헤드를 유지하는 것을 보여줍니다. 예를 들어, 3비트 가중치 전용 양자화에서, 우리의 방법은 LLaVA-onevision-7B의 평균 정확도를 1.60% 향상시켜 전체 정밀도 모델과의 격차를 1.33%로 줄였습니다. 코드: https://github.com/ucas-xiang/QIG

Original Abstract

Large Vision Language Models (LVLMs) have achieved remarkable success in a range of downstream tasks that require multimodal interaction, but their capabilities come with substantial computational and memory overhead, which hinders practical deployment. Among numerous acceleration techniques, post-training quantization is a popular and effective strategy for reducing memory cost and accelerating inference. However, existing LVLM quantization methods typically measure token sensitivity at the modality level, which fails to capture the complex cross-token interactions and falls short in quantitatively measuring the quantization error at the token level. As tokens interact within the model, the distinction between modalities gradually diminishes, suggesting the need for fine-grained calibration. Inspired by axiomatic attribution in mechanistic interpretability, we introduce a fine-grained quantization strategy on Quantization-aware Integrated Gradients (QIG), which leverages integrated gradients to quantitatively evaluate token sensitivity and push the granularity from modality level to token level, reflecting both inter-modality and intra-modality dynamics. Extensive experiments on multiple LVLMs under both W4A8 and W3A16 settings show that our method improves accuracy across models and benchmarks with negligible latency overhead. For example, under 3-bit weight-only quantization, our method improves the average accuracy of LLaVA-onevision-7B by 1.60%, reducing the gap to its full-precision counterpart to only 1.33%. The code is available at https://github.com/ucas-xiang/QIG.

0 Citations
0 Influential
33.397207708399 Altmetric
167.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!