QSLM: 성능 및 메모리 효율성을 고려한 계층적 탐색 전략 기반 양자화 프레임워크, 스파이크 기반 언어 모델 적용
QSLM: A Performance- and Memory-aware Quantization Framework with Tiered Search Strategy for Spike-driven Language Models
대규모 언어 모델(LLM)은 높은 성능(예: 정확도)과 입력에 대한 고품질 응답 생성 능력으로 인해 다양한 자연어 처리 작업에 널리 사용되고 있습니다. 그러나 계산 비용이 매우 크고, 메모리 사용량이 높으며, 높은 처리 능력/에너지 소비량으로 인해 임베디드 환경에 적용하기 어렵습니다. 기존의 소형 LLM 외에도, 최근에는 LLM의 처리 능력/에너지 소비를 크게 줄이기 위한 스파이크 기반 언어 모델(SLM)이 제안되었습니다. 하지만, SLM의 메모리 사용량은 여전히 저렴하고 자원 제약이 있는 임베디드 장치에 적합하지 않습니다. 수동 양자화 방법은 SLM의 메모리 사용량을 줄이는 데 효과적일 수 있지만, 각 네트워크에 대한 최적의 양자화 설정을 찾기 위해 많은 설계 시간과 계산 자원이 필요하므로, 다양한 네트워크, 성능 요구 사항 및 메모리 제약 조건을 처리하는 데 적합하지 않습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 사전 훈련된 SLM을 압축하면서 성능 및 메모리 제약 조건을 충족하는 자동 양자화 프레임워크인 QSLM을 제안합니다. QSLM은 먼저 주어진 네트워크 아키텍처의 계층 구조와 양자화 시 네트워크 레이어의 민감도를 파악한 다음, 계층적 양자화 전략(예: 글로벌, 블록, 모듈 수준 양자화)을 사용하고, 다중 목표 성능-메모리 균형 함수를 활용하여 최종 양자화 설정을 선택합니다. 실험 결과는 QSLM이 최대 86.5%의 메모리 사용량 감소, 최대 20%의 전력 소비 감소를 달성하며, SST-2 데이터셋에서의 감성 분류 정확도 84.4%, WikiText-2 데이터셋에서의 텍스트 생성 퍼플렉시티 점수 23.2로, 원래 모델과 유사한 높은 성능을 유지하면서 성능 및 메모리 제약 조건을 만족한다는 것을 보여줍니다.
Large Language Models (LLMs) have been emerging as prominent AI models for solving many natural language tasks due to their high performance (e.g., accuracy) and capabilities in generating high-quality responses to the given inputs. However, their large computational cost, huge memory footprints, and high processing power/energy make it challenging for their embedded deployments. Amid several tinyLLMs, recent works have proposed spike-driven language models (SLMs) for significantly reducing the processing power/energy of LLMs. However, their memory footprints still remain too large for low-cost and resource-constrained embedded devices. Manual quantization approach may effectively compress SLM memory footprints, but it requires a huge design time and compute power to find the quantization setting for each network, hence making this approach not-scalable for handling different networks, performance requirements, and memory budgets. To bridge this gap, we propose QSLM, a novel framework that performs automated quantization for compressing pre-trained SLMs, while meeting the performance and memory constraints. To achieve this, QSLM first identifies the hierarchy of the given network architecture and the sensitivity of network layers under quantization, then employs a tiered quantization strategy (e.g., global-, block-, and module-level quantization) while leveraging a multi-objective performance-and-memory trade-off function to select the final quantization setting. Experimental results indicate that our QSLM reduces memory footprint by up to 86.5%, reduces power consumption by up to 20%, maintains high performance across different tasks (i.e., by up to 84.4% accuracy of sentiment classification on the SST-2 dataset and perplexity score of 23.2 for text generation on the WikiText-2 dataset) close to the original non-quantized model while meeting the performance and memory constraints.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.