2602.07804v1 Feb 08, 2026 cs.CL

가지치기 기법을 협력 게임으로 활용: 대규모 언어 모델의 서브 네트워크 기반 레이어 기여도 추정

Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models

Xuan Ding
Xuan Ding
Citations: 18
h-index: 3
Yao Zhu
Yao Zhu
Citations: 26
h-index: 4
Pengyu Tong
Pengyu Tong
Citations: 9
h-index: 1
Ranjie Duan
Ranjie Duan
Citations: 96
h-index: 5
Yunjian Zhang
Yunjian Zhang
Citations: 10
h-index: 3
Rui Sun
Rui Sun
Citations: 10
h-index: 3

대규모 언어 모델(LLM)은 다양한 작업에서 뛰어난 성능을 보이지만, 실제 환경에 적용하는 데는 여전히 높은 컴퓨팅 비용이 걸림돌입니다. 레이어별 가지치기는 추론 비용을 줄이기 위해 일반적으로 사용되는 방법이지만, 기존 방식은 주로 정적인 휴리스틱 규칙에 의존하며 레이어 간의 상호 의존성을 고려하지 못하여 가지치기 효율성이 제한됩니다. 이에 본 연구에서는 레이어 가지치기를 협력 게임으로 모델링하는 게임 이론적 프레임워크를 제안합니다. 여기서 각 레이어는 플레이어 역할을 하고, 모델 성능은 효용으로 사용됩니다. 정확한 섀플리 값을 계산하는 것은 대규모 언어 모델(LLM)의 경우 계산적으로 불가능하므로, 레이어별 한계 기여도를 추정하기 위해 경량화된 서브 네트워크를 사용합니다. 이 네트워크는 낮은 계산 비용으로 임의의 레이어 조합에 대한 LLM 성능을 예측할 수 있습니다. 또한, 섀플리 값 추정 비용을 더욱 줄이기 위해 계층화된 몬테카를로 마스크 샘플링을 사용합니다. 이 방법은 레이어 간의 의존성을 파악하고, 가지치기에 중요한 레이어를 동적으로 식별합니다. 광범위한 실험 결과, 제안하는 방법이 퍼플렉시티(perplexity)와 제로샷 정확도 측면에서 일관되게 우수한 성능을 보이며, 대규모 언어 모델의 레이어별 가지치기를 더욱 효율적이고 효과적으로 수행함을 입증했습니다.

Original Abstract

While large language models (LLMs) demonstrate impressive performance across various tasks, their deployment in real-world scenarios is still constrained by high computational demands. Layer-wise pruning, a commonly employed strategy to mitigate inference costs, can partially address this challenge. However, existing approaches generally depend on static heuristic rules and fail to account for the interdependencies among layers, thereby limiting the effectiveness of the pruning process. To this end, this paper proposes a game-theoretic framework that formulates layer pruning as a cooperative game in which each layer acts as a player and model performance serves as the utility. As computing exact Shapley values is computationally infeasible for large language models (LLMs), we propose using a lightweight surrogate network to estimate layer-wise marginal contributions. This network can predict LLM performance for arbitrary layer combinations at a low computational cost. Additionally, we employ stratified Monte Carlo mask sampling to further reduce the cost of Sharpley value estimation. This approach captures inter-layer dependencies and dynamically identifies critical layers for pruning. Extensive experiments demonstrate the consistent superiority of our method in terms of perplexity and zero-shot accuracy, achieving more efficient and effective layer-wise pruning for large language models.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!