2602.01975v1 Feb 02, 2026 cs.LG

IntraSlice: 블록-내 PCA를 활용한 고성능 구조적 가지치기 방법론을 통한 LLM 최적화

IntraSlice: Towards High-Performance Structural Pruning with Block-Intra PCA for LLMs

Meng Li
Meng Li
Citations: 18
h-index: 2
Peisong Wang
Peisong Wang
Citations: 790
h-index: 15
Yuantian Shao
Yuantian Shao
Citations: 15
h-index: 2
Qinghao Hu
Qinghao Hu
Citations: 3
h-index: 1
Hongjian Fang
Hongjian Fang
Citations: 0
h-index: 0
Yifan Zhang
Yifan Zhang
Citations: 0
h-index: 0
Zhihui Wei
Zhihui Wei
Citations: 9
h-index: 2
Jian Cheng
Jian Cheng
Citations: 85
h-index: 6

대규모 언어 모델(LLM)은 다양한 작업에서 뛰어난 성능을 보이지만, 거대한 크기로 인해 배포에 어려움을 겪습니다. 구조적 가지치기는 성능 향상에 기여하지만, 상당한 성능 저하를 초래할 수 있습니다. 최근의 PCA 기반 가지치기 방법은 주요 활성화 구성 요소를 유지하여 이러한 문제를 완화했지만, 변환 행렬을 통합하기 위해 모듈 간에만 적용되어 추가적인 파라미터를 도입하고 잔여 연결으로 인해 활성화 분포를 심각하게 방해합니다. 이러한 문제점을 해결하기 위해, 우리는 블록 단위의 모듈 내부 PCA 압축 가지치기를 적용하는 프레임워크인 IntraSlice를 제안합니다. 트랜스포머 모듈의 구조적 특징을 활용하여, 추가적인 파라미터 없이 모델에 완전히 통합될 수 있는 근사 PCA 방법을 설계했습니다. 또한, 기존의 모듈 중요도를 기반으로 압축된 활성화 분포를 추가적으로 고려하는 PCA 기반의 글로벌 가지치기 비율 추정기를 도입했습니다. 저희 방법은 Llama2, Llama3 및 Phi 시리즈를 다양한 언어 벤치마크에서 검증했으며, 실험 결과는 동일한 압축 비율 또는 추론 속도에서 최근의 기준 방법보다 우수한 압축 성능을 달성한다는 것을 보여줍니다.

Original Abstract

Large Language Models (LLMs) achieve strong performance across diverse tasks but face deployment challenges due to their massive size. Structured pruning offers acceleration benefits but leads to significant performance degradation. Recent PCA-based pruning methods have alleviated this issue by retaining key activation components, but are only applied between modules in order to fuse the transformation matrix, which introduces extra parameters and severely disrupts activation distributions due to residual connections. To address these issues, we propose IntraSlice, a framework that applies block-wise module-intra PCA compression pruning. By leveraging the structural characteristics of Transformer modules, we design an approximate PCA method whose transformation matrices can be fully fused into the model without additional parameters. We also introduce a PCA-based global pruning ratio estimator that further considers the distribution of compressed activations, building on conventional module importance. We validate our method on Llama2, Llama3, and Phi series across various language benchmarks. Experimental results demonstrate that our approach achieves superior compression performance compared to recent baselines at the same compression ratio or inference speed.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!