2602.14432v1 Feb 16, 2026 cs.LG

S2D: 양자화에 적합한 신경망 활성화 조건부 처리를 위한 선택적 스펙트럼 감쇠

S2D: Selective Spectral Decay for Quantization-Friendly Conditioning of Neural Activations

Aditi Raghunathan
Aditi Raghunathan
Citations: 5
h-index: 1
Arnav Chavan
Arnav Chavan
Citations: 505
h-index: 8
Nahush Lele
Nahush Lele
Citations: 7
h-index: 1
Udbhav Bamba
Udbhav Bamba
Citations: 6
h-index: 1
Sankalp Dayal
Sankalp Dayal
Amazon
Citations: 540
h-index: 4
Deepak Gupta
Deepak Gupta
Citations: 47
h-index: 2

대규모 트랜스포머 모델에서 나타나는 활성화 값의 이상치는 모델 양자화의 근본적인 어려움을 야기하며, 양자화 과정에서 심각한 정확도 저하를 초래하는 과도하게 큰 범위를 생성합니다. 우리는 실험적으로 확인한 결과, 이상치의 심각성은 사전 학습 규모가 커질수록 증가합니다 (예: CLIP에서 더 광범위하게 학습된 SigLIP 및 SigLIP2로 진행). 이론적 분석과 경험적 상관 관계 연구를 통해, 이러한 활성화 값의 이상치와 가중치의 주요 고유값 사이에 직접적인 연관성이 있음을 입증했습니다. 이러한 통찰력을 바탕으로, 우리는 미세 조정 과정에서 가장 큰 고유값에 해당하는 가중치 구성 요소만을 선택적으로 정규화하는 기하학적으로 설계된 방법인 Selective Spectral Decay ($S^2D$)를 제안합니다. 광범위한 실험을 통해, $S^2D$가 활성화 값의 이상치를 현저히 줄이고 양자화에 적합한 잘 조건화된 표현을 생성한다는 것을 입증했습니다. $S^2D$를 사용하여 학습된 모델은 W4A4 양자화 조건에서 ImageNet에서 최대 7%의 PTQ 정확도 향상을 보였으며, QAT와 결합할 경우 4%의 추가적인 성능 향상을 얻을 수 있었습니다. 이러한 개선 효과는 다운스트림 작업 및 시각-언어 모델 전반에 걸쳐 일반화되며, 점점 더 크고 엄격하게 학습된 모델의 배포 효율성을 저해하지 않으면서 모델 크기 확장을 가능하게 합니다.

Original Abstract

Activation outliers in large-scale transformer models pose a fundamental challenge to model quantization, creating excessively large ranges that cause severe accuracy drops during quantization. We empirically observe that outlier severity intensifies with pre-training scale (e.g., progressing from CLIP to the more extensively trained SigLIP and SigLIP2). Through theoretical analysis as well as empirical correlation studies, we establish the direct link between these activation outliers and dominant singular values of the weights. Building on this insight, we propose Selective Spectral Decay ($S^2D$), a geometrically-principled conditioning method that surgically regularizes only the weight components corresponding to the largest singular values during fine-tuning. Through extensive experiments, we demonstrate that $S^2D$ significantly reduces activation outliers and produces well-conditioned representations that are inherently quantization-friendly. Models trained with $S^2D$ achieve up to 7% improved PTQ accuracy on ImageNet under W4A4 quantization and 4% gains when combined with QAT. These improvements also generalize across downstream tasks and vision-language models, enabling the scaling of increasingly large and rigorously trained models without sacrificing deployment efficiency.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!