2602.07849v2 Feb 08, 2026 cs.AI

LQA: 에지 환경의 비전-언어 모델을 위한 경량 양자화-적응형 프레임워크

LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge

Xin Wang
Xin Wang
Citations: 12
h-index: 1
Hualin Zhou
Hualin Zhou
Citations: 61
h-index: 2
Ting Dang
Ting Dang
Citations: 94
h-index: 5
Yu Zhang
Yu Zhang
Citations: 3
h-index: 1
Hong Jia
Hong Jia
Citations: 69
h-index: 4
Tao Gu
Tao Gu
Citations: 0
h-index: 0
Sheng Wang
Sheng Wang
Citations: 3
h-index: 1

에지 디바이스에 비전-언어 모델(VLM)을 배포하는 것은 자원 제약과 데이터 분포 변화(distribution shifts)로 인한 성능 저하라는 과제에 직면해 있습니다. 테스트 시간 적응(TTA) 기술이 이러한 변화에 대응할 수 있지만, 기존 방법들은 온디바이스(on-device) 배포에 적용하기에는 자원 소모가 너무 큽니다. 이러한 문제를 해결하기 위해, 본 논문에서는 모달리티 인식 양자화 전략과 기울기가 필요 없는(gradient-free) 테스트 시간 적응을 결합한 VLM용 경량 양자화-적응형 프레임워크인 LQA를 제안합니다. 자원이 제한된 하드웨어에서 견고하고 효율적인 VLM 배포를 가능하게 하기 위해 선택적 하이브리드 양자화(SHQ)와 양자화된 기울기 불필요 적응 메커니즘을 도입했습니다. 합성 및 실제 분포 변화 환경에서의 실험 결과, LQA는 전반적인 적응 성능을 4.5% 향상시키고, 전정밀도(full-precision) 모델보다 적은 메모리를 사용하며, 7개의 오픈 소스 데이터셋에서 최대 19.9배 낮은 메모리 사용량을 달성하여 기울기 기반 TTA 방법보다 성능이 크게 뛰어난 것으로 나타났습니다. 이러한 결과는 LQA가 에지 디바이스에서 견고하고, 프라이버시를 보호하며, 효율적인 VLM 배포를 위한 실질적인 경로를 제공함을 입증합니다.

Original Abstract

Deploying Vision-Language Models (VLMs) on edge devices is challenged by resource constraints and performance degradation under distribution shifts. While test-time adaptation (TTA) can counteract such shifts, existing methods are too resource-intensive for on-device deployment. To address this challenge, we propose LQA, a lightweight, quantized-adaptive framework for VLMs that combines a modality-aware quantization strategy with gradient-free test-time adaptation. We introduce Selective Hybrid Quantization (SHQ) and a quantized, gradient-free adaptation mechanism to enable robust and efficient VLM deployment on resource-constrained hardware. Experiments across both synthetic and real-world distribution shifts show that LQA improves overall adaptation performance by 4.5\%, uses less memory than full-precision models, and significantly outperforms gradient-based TTA methods, achieving up to 19.9$\times$ lower memory usage across seven open-source datasets. These results demonstrate that LQA offers a practical pathway for robust, privacy-preserving, and efficient VLM deployment on edge devices.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!