LQA: 엣지 환경에서의 비전-언어 모델을 위한 경량화된 양자화-적응 프레임워크
LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge
비전-언어 모델(VLM)을 엣지 장치에 배포하는 것은 제한된 리소스와 데이터 분포 변화로 인한 성능 저하라는 어려움에 직면합니다. 테스트 시간 적응(TTA)은 이러한 변화에 대응할 수 있지만, 기존 방법은 장치 내 배포에 너무 많은 리소스를 요구합니다. 이러한 문제를 해결하기 위해, 우리는 모달리티(modalitiy) 인지 양자화 전략과 기울기 기반이 아닌 테스트 시간 적응을 결합한 경량화된 양자화-적응 프레임워크인 LQA를 제안합니다. 우리는 선택적 하이브리드 양자화(SHQ)와 양자화된 기울기 기반이 아닌 적응 메커니즘을 도입하여, 리소스가 제한된 하드웨어에서 견고하고 효율적인 VLM 배포를 가능하게 합니다. 합성 데이터와 실제 데이터 분포 변화 모두에서 실험한 결과, LQA는 전체적인 적응 성능을 4.5% 향상시키고, 전체 정밀도 모델보다 적은 메모리를 사용하며, 기울기 기반 TTA 방법보다 훨씬 뛰어난 성능을 보였습니다. 실제로, 7개의 공개 데이터 세트에서 최대 19.9배 낮은 메모리 사용량을 달성했습니다. 이러한 결과는 LQA가 엣지 장치에서 견고하고, 개인 정보 보호가 가능하며, 효율적인 VLM 배포를 위한 실용적인 방법을 제공한다는 것을 보여줍니다.
Deploying Vision-Language Models (VLMs) on edge devices is challenged by resource constraints and performance degradation under distribution shifts. While test-time adaptation (TTA) can counteract such shifts, existing methods are too resource-intensive for on-device deployment. To address this challenge, we propose LQA, a lightweight, quantized-adaptive framework for VLMs that combines a modality-aware quantization strategy with gradient-free test-time adaptation. We introduce Selective Hybrid Quantization (SHQ) and a quantized, gradient-free adaptation mechanism to enable robust and efficient VLM deployment on resource-constrained hardware. Experiments across both synthetic and real-world distribution shifts show that LQA improves overall adaptation performance by 4.5\%, uses less memory than full-precision models, and significantly outperforms gradient-based TTA methods, achieving up to 19.9$\times$ lower memory usage across seven open-source datasets. These results demonstrate that LQA offers a practical pathway for robust, privacy-preserving, and efficient VLM deployment on edge devices.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.