2604.13440v1 Apr 15, 2026 cs.LG

KL 렌즈를 활용한 양자화: 혼합 정밀도 SSM-Transformer 모델을 위한 빠르고 순방향 연산 기반 감도 분석

A KL Lens on Quantization: Fast, Forward-Only Sensitivity for Mixed-Precision SSM-Transformer Models

Tajana Rosing
Tajana Rosing
Citations: 27
h-index: 3
Jason Kong
Jason Kong
Citations: 11
h-index: 2
N. Pandey
N. Pandey
Citations: 106
h-index: 5
Flavio Ponzina
Flavio Ponzina
Citations: 138
h-index: 7

대규모 언어 모델(LLM)을 엣지 장치에 배포하는 것은 심각한 컴퓨팅 및 메모리 제약으로 인해 실시간 처리 및 온디바이스 지능을 제한합니다. 구조화된 상태 공간 모델(SSM)과 트랜스포머 기반 LLM을 결합한 하이브리드 아키텍처는 효율성과 성능의 균형을 제공합니다. 공격적인 양자화는 모델 크기를 크게 줄이고 추론 속도를 높일 수 있지만, 다양한 구성 요소에 대한 불균등한 영향은 신중한 관리가 필요합니다. 본 연구에서는 하이브리드 SSM-Transformer 구성 요소 중에서 양자화로 인한 성능 저하에 가장 취약한 부분을 식별하기 위한 경량화된, 역전파 불필요한, 대리 기반 감도 분석 프레임워크를 제안합니다. 본 방법은 순방향 연산 메트릭에만 의존하여 비용이 많이 드는 그래디언트 계산 및 재학습을 피하므로, 도메인 데이터에 대한 접근이 독점적인 제한 또는 개인 정보 보호 제약으로 인해 제한된 경우에 적합합니다. 또한, 쿨백-라이블러(KL) 발산 메트릭이 언어 모델링 작업에서 널리 사용되는 평균 제곱 오차(MSE) 및 신호-양자화 잡음비(SQNR)와 같은 대체 메트릭보다 양자화 감도를 더 잘 반영한다는 것을 보여주는 공식적인 분석을 제공합니다. SSM 및 하이브리드 아키텍처에 대한 광범위한 실험을 통해, KL 기반 순위가 관찰된 성능 저하와 일치하며 대체 메트릭보다 우수하다는 것을 확인했습니다. 본 프레임워크는 고급 하이브리드 모델을 리소스가 제한된 엣지 장치에 최소한의 정확도 손실로 배포할 수 있도록 지원합니다. 또한, 실제 온디바이스 프로파일링을 통해 Intel Lunar Lake 하드웨어에서 KL 기반 혼합 정밀도가 모델 크기와 처리량이 Uniform INT4와 경쟁하면서 FP16에 가까운 퍼플렉시티를 달성하는 것을 확인했습니다. 코드는 https://github.com/jasonkongie/kl-ssm-quant 에서 확인할 수 있습니다.

Original Abstract

Deploying Large Language Models (LLMs) on edge devices faces severe computational and memory constraints, limiting real-time processing and on-device intelligence. Hybrid architectures combining Structured State Space Models (SSMs) with transformer-based LLMs offer a balance of efficiency and performance. Aggressive quantization can drastically cut model size and speed up inference, but its uneven effects on different components require careful management. In this work, we propose a lightweight, backpropagation-free, surrogate-based sensitivity analysis framework to identify hybrid SSM-Transformer components most susceptible to quantization-induced degradation. Relying solely on forward-pass metrics, our method avoids expensive gradient computations and retraining, making it suitable for situations where access to in-domain data is limited due to proprietary restrictions or privacy constraints. We also provide a formal analysis showing that the Kullback-Leibler (KL) divergence metric better captures quantization sensitivity for Language modeling tasks than widely adopted alternatives such as mean squared error (MSE) and signal-to-quantization-noise ratio (SQNR). Through extensive experiments on SSM and hybrid architectures, our ablation studies confirm that KL-based rankings align with observed performance drops and outperform alternative metrics. This framework enables the practical deployment of advanced hybrid models on resource-constrained edge devices with minimal accuracy loss. We further validate our approach with real-world on-device profiling on Intel Lunar Lake hardware, demonstrating that KL-guided mixed-precision achieves near-FP16 perplexity with model sizes and throughput competitive with Uniform INT4 on both CPU and GPU execution modes. Code is available at https://github.com/jasonkongie/kl-ssm-quant.

0 Citations
0 Influential
23.5 Altmetric
117.5 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!