자주 묻는 질문: 패밀리 기반 양자화(Family-Aware Quantization)를 활용한 보정 데이터 재생성으로 양자화 오차 완화
FAQ: Mitigating Quantization Error via Regenerating Calibration Data with Family-Aware Quantization
사후 학습 양자화(PTQ)는 리소스 제약적인 환경에서 대규모 언어 모델(LLM)을 배포하기 위한 효율적인 수치 압축 방식이지만, 보정 데이터의 대표성과 일반성은 양자화 매개변수의 정확성을 결정하는 핵심적인 제약 요인입니다. 기존 PTQ 방법은 일반적으로 제한된 샘플에 의존하여 추론 단계 동안의 활성화 분포를 정확하게 반영하기 어렵기 때문에 양자화 매개변수에 편향이 발생할 수 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 동일 패밀리의 LLM에서 얻은 사전 지식을 활용하여 고품질 보정 샘플을 생성하는 보정 데이터 재생성 프레임워크인 **FAQ (Family-Aware Quantization)**를 제안합니다. 구체적으로, FAQ는 먼저 원본 보정 샘플을 대상 모델과 동일 패밀리의 더 큰 LLM에 입력하여, 일관성 있는 지식 시스템을 통해 생성된 일련의 고품질 보정 데이터를 재생성합니다. 이 데이터는 Chain-of-Thought 추론을 포함하고 예상되는 활성화 분포를 따르며, 전문가의 지도를 받아 그룹 경쟁을 통해 최적의 샘플을 선택하고, 표준 PTQ의 효과를 높이기 위해 재정규화됩니다. Qwen3-8B를 포함한 다양한 모델 시리즈에 대한 실험 결과, FAQ는 원본 보정 데이터를 사용한 기준 모델에 비해 최대 28.5%까지 정확도 손실을 줄이는 것을 보여주었으며, 이는 FAQ의 강력한 잠재력과 기여도를 입증합니다.
Although post-training quantization (PTQ) provides an efficient numerical compression scheme for deploying large language models (LLMs) on resource-constrained devices, the representativeness and universality of calibration data remain a core bottleneck in determining the accuracy of quantization parameters. Traditional PTQ methods typically rely on limited samples, making it difficult to capture the activation distribution during the inference phase, leading to biases in quantization parameters. To address this, we propose \textbf{FAQ} (Family-Aware Quantization), a calibration data regeneration framework that leverages prior knowledge from LLMs of the same family to generate high-fidelity calibration samples. Specifically, FAQ first inputs the original calibration samples into a larger LLM from the same family as the target model, regenerating a series of high-fidelity calibration data using a highly consistent knowledge system. Subsequently, this data, carrying Chain-of-Thought reasoning and conforming to the expected activation distribution, undergoes group competition under expert guidance to select the best samples, which are then re-normalized to enhance the effectiveness of standard PTQ. Experiments on multiple model series, including Qwen3-8B, show that FAQ reduces accuracy loss by up to 28.5\% compared to the baseline with original calibration data, demonstrating its powerful potential and contribution.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.