모델 성능 향상을 위한 기술: LLM 배포를 위한 뮤온 기반 지식 증류 및 양자화
Advancing Model Refinement: Muon-Optimized Distillation and Quantization for LLM Deployment
대규모 언어 모델(LLM)은 고급 자연어 처리에 활용되지만, 높은 계산, 메모리 및 에너지 요구량으로 인해 자원 제약적인 엣지 장치에 배포하는 데 어려움이 있습니다. 이러한 모델을 최적화하려면, 작업별 데이터 확보, 성능 향상을 위한 미세 조정, 그리고 추론 속도를 높이고 자원 요구량을 줄이기 위한 모델 압축이라는 세 가지 주요 과제를 해결해야 합니다. 우리는 GPTQ 기반 양자화, 저랭크 적응(LoRA), 그리고 특수 데이터 증류 과정을 결합한 통합 프레임워크를 제안합니다. 이를 통해 모델 크기와 복잡성을 크게 줄이면서 작업별 성능을 유지하거나 향상시킬 수 있습니다. 데이터 증류, 쿨백-라이블러 발산 기반 지식 증류, 베이지안 하이퍼파라미터 최적화, 그리고 뮤온 최적화기를 활용하여, 당사의 파이프라인은 최대 2배의 메모리 압축을 달성합니다 (예: 6GB 모델을 3GB로 축소). 또한, 특수 작업에 대한 효율적인 추론을 가능하게 합니다. 실험 결과는 표준 LLM 벤치마크에서 GPTQ 양자화만 사용했을 때보다 우수한 성능을 보여주며, 특히 뮤온 최적화기는 미세 조정된 모델이 양자화 과정에서 정확도 저하에 대한 저항력을 높이는 데 크게 기여합니다.
Large Language Models (LLMs) enable advanced natural language processing but face deployment challenges on resource-constrained edge devices due to high computational, memory, and energy demands. Optimizing these models requires addressing three key challenges: acquiring task-specific data, fine-tuning for performance, and compressing models to accelerate inference while reducing resource demands. We propose an integrated framework combining GPTQ-based quantization, low-rank adaptation (LoRA), and a specialized data distillation process to significantly reduce model size and complexity while preserving or enhancing task-specific performance. By leveraging data distillation, knowledge distillation via Kullback-Leibler divergence, Bayesian hyperparameter optimization, and the Muon optimizer, our pipeline achieves up to 2x memory compression (e.g., reducing a 6GB model to 3GB) and enables efficient inference for specialized tasks. Empirical results demonstrate superior performance on standard LLM benchmarks compared to GPTQ quantization alone, with the Muon optimizer notably enhancing fine-tuned models' resistance to accuracy decay during quantization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.