2602.21233v2 Feb 07, 2026 cs.LG

AngelSlim: 더 접근하기 쉽고, 포괄적이며, 효율적인 대규모 모델 압축 도구 키트

AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression

Yifan Tan
Yifan Tan
Citations: 24
h-index: 2
Guanghua Yu
Guanghua Yu
Citations: 30
h-index: 3
Jianchen Zhu
Jianchen Zhu
Citations: 1
h-index: 1
Rui Cen
Rui Cen
Citations: 11
h-index: 2
Hong Huang
Hong Huang
Citations: 9
h-index: 2
Hong Liu
Hong Liu
Citations: 21
h-index: 1
Songwei Liu
Songwei Liu
Zhejiang University
Citations: 53
h-index: 4
Lin Niu
Lin Niu
Citations: 301
h-index: 4
Decheng Wu
Decheng Wu
Citations: 39
h-index: 3
Li Xie
Li Xie
Citations: 6
h-index: 1
Qiangqiang Hu
Qiangqiang Hu
Citations: 147
h-index: 8
Xin Luo
Xin Luo
Citations: 142
h-index: 4
Rubing Yang
Rubing Yang
Citations: 15
h-index: 2

본 기술 보고서는 텐센트 후안위안 팀에서 개발한 포괄적이고 다재다능한 대규모 모델 압축 도구 키트인 AngelSlim을 소개합니다. 양자화, 추론 기반 디코딩, 토큰 가지치기, 증류 등의 최첨단 알고리즘을 통합하여 AngelSlim은 모델 압축에서 산업 규모 배포로의 전환을 간소화하는 통합 파이프라인을 제공합니다. 효율적인 가속화를 위해, 우리는 최첨단 FP8 및 INT8 양자화(PTQ) 알고리즘과 함께, HY-1.8B-int2를 최초의 산업적으로 활용 가능한 2비트 대규모 모델로 특징짓는 초저비트 영역에 대한 선구적인 연구를 통합했습니다. 양자화 외에도, 우리는 다중 모드 아키텍처 및 최신 추론 엔진과 호환되는 학습 기반 추론 디코딩 프레임워크를 제안하며, 출력 정확도를 손상시키지 않고 1.8배에서 2.0배의 처리량 향상을 달성합니다. 또한, 우리는 모델 아키텍처와 희소 커널을 정적 패턴과 동적 토큰 선택의 조합을 통해 분리하여, 긴 컨텍스트 시나리오에서 첫 번째 토큰까지의 시간(TTFT)을 줄이는 학습이 필요 없는 희소 어텐션 프레임워크를 개발했습니다. 다중 모드 모델의 경우, AngelSlim은 IDPruner(Maximal Marginal Relevance를 통한 비전 토큰 최적화) 및 Samp(적응형 오디오 토큰 병합 및 가지치기)와 같은 특수 가지치기 전략을 통합합니다. AngelSlim은 이러한 압축 전략을 저수준 구현으로부터 통합하여, 알고리즘 중심 연구와 도구 지원 배포를 가능하게 합니다.

Original Abstract

This technical report introduces AngelSlim, a comprehensive and versatile toolkit for large model compression developed by the Tencent Hunyuan team. By consolidating cutting-edge algorithms, including quantization, speculative decoding, token pruning, and distillation. AngelSlim provides a unified pipeline that streamlines the transition from model compression to industrial-scale deployment. To facilitate efficient acceleration, we integrate state-of-the-art FP8 and INT8 Post-Training Quantization (PTQ) algorithms alongside pioneering research in ultra-low-bit regimes, featuring HY-1.8B-int2 as the first industrially viable 2-bit large model. Beyond quantization, we propose a training-aligned speculative decoding framework compatible with multimodal architectures and modern inference engines, achieving 1.8x to 2.0x throughput gains without compromising output correctness. Furthermore, we develop a training-free sparse attention framework that reduces Time-to-First-Token (TTFT) in long-context scenarios by decoupling sparse kernels from model architectures through a hybrid of static patterns and dynamic token selection. For multimodal models, AngelSlim incorporates specialized pruning strategies, namely IDPruner for optimizing vision tokens via Maximal Marginal Relevance and Samp for adaptive audio token merging and pruning. By integrating these compression strategies from low-level implementations, AngelSlim enables algorithm-focused research and tool-assisted deployment.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!