2601.22347v1 Jan 29, 2026 cs.LG

MixQuant: 사후 양자화에서 블록 회전의 한계를 뛰어넘기

MixQuant: Pushing the Limits of Block Rotations in Post-Training Quantization

Nicholas Fraser
Nicholas Fraser
Citations: 4
h-index: 1
Sai Sanjeet
Sai Sanjeet
Citations: 0
h-index: 0
Ian Colbert
Ian Colbert
Citations: 59
h-index: 4
Pablo Monteagudo-Lago
Pablo Monteagudo-Lago
Citations: 4
h-index: 1
Giuseppe Franco
Giuseppe Franco
Citations: 16
h-index: 3
Yaman Umuroglu
Yaman Umuroglu
Citations: 2,151
h-index: 14

최근의 사후 양자화(PTQ) 방법에서는 반올림 전에 이상치를 완화하기 위해 블록 회전이 사용됩니다. 이는 전체 벡터 회전에 비해 오버헤드를 줄이지만, 블록 구조가 이상치 억제에 미치는 영향은 아직 제대로 이해되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 블록 하다마드 회전에 대한 체계적이고 비-점근적 이상치 억제 분석을 최초로 제시합니다. 우리의 분석 결과, 이상치 억제는 근본적으로 입력 벡터의 기하학적 구조에 의해 제한됩니다. 특히, 회전 전의 L1 노름이 블록 전체에 균등하게 분포될 때, 회전 후의 이상치가 결정적으로 최소화됩니다. 이러한 통찰력을 바탕으로, 우리는 블록 회전을 고려한 PTQ 프레임워크인 MixQuant을 제안합니다. MixQuant은 회전 전에 순열을 통해 활성화 값을 재분배합니다. 우리는 블록별 L1 노름의 기대값을 균등하게 만들어 순열을 조정하는 탐욕적인 질량 확산 알고리즘을 제안합니다. 추론 오버헤드를 피하기 위해, 우리는 트랜스포머 아키텍처에서 순열에 불변인 영역을 식별하여, 배포 전에 순열 결과를 모델 가중치에 병합합니다. 실험 결과, MixQuant은 모든 블록 크기에서 일관되게 정확도를 향상시키며, 블록 크기가 16인 상태에서 Llama3 1B를 INT4로 양자화할 때, 순열을 사용하지 않은 경우보다 최대 90%의 전체 벡터 회전 복잡도를 회복합니다 (순열 미사용 시 46%).

Original Abstract

Recent post-training quantization (PTQ) methods have adopted block rotations to diffuse outliers prior to rounding. While this reduces the overhead of full-vector rotations, the effect of block structure on outlier suppression remains poorly understood. To fill this gap, we present the first systematic, non-asymptotic analysis of outlier suppression for block Hadamard rotations. Our analysis reveals that outlier suppression is fundamentally limited by the geometry of the input vector. In particular, post-rotation outliers are deterministically minimized when the pre-rotation $\ell_1$ norm mass is evenly distributed across blocks. Guided by these insights, we introduce MixQuant, a block rotation-aware PTQ framework that redistributes activation mass via permutations prior to rotation. We propose a greedy mass diffusion algorithm to calibrate permutations by equalizing the expected blockwise $\ell_1$ norms. To avoid adding inference overhead, we identify permutation-equivariant regions in transformer architectures to merge the resulting permutations into model weights before deployment. Experiments show that MixQuant consistently improves accuracy across all block sizes, recovering up to 90% of the full-vector rotation perplexity when quantizing Llama3 1B to INT4 with block size 16, compared to 46% without permutations.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!