2604.12767v1 Apr 14, 2026 cs.CV

CLASP: 클래스 적응형 레이어 융합 및 이중 단계 가지치기를 이용한 다중 모드 대규모 언어 모델

CLASP: Class-Adaptive Layer Fusion and Dual-Stage Pruning for Multimodal Large Language Models

Yunkai Dang
Yunkai Dang
Citations: 8
h-index: 2
Wenbin Li
Wenbin Li
Citations: 80
h-index: 5
Qiyuan Fan
Qiyuan Fan
Citations: 2
h-index: 1
Yang Gao
Yang Gao
Citations: 232
h-index: 7
Yi Jiang
Yi Jiang
Citations: 15
h-index: 2
Yifan Jiang
Yifan Jiang
Citations: 86
h-index: 3
Yinghuan Shi
Yinghuan Shi
Citations: 6,283
h-index: 37

다중 모드 대규모 언어 모델(MLLM)은 시각적 토큰 시퀀스의 높은 중복성으로 인해 상당한 계산 오버헤드를 발생시킵니다. 기존 접근 방식은 일반적으로 단일 레이어 Vision Transformer(ViT) 특징과 정적 가지치기 전략을 사용하여 이 문제를 해결합니다. 그러나 이러한 고정된 구성은 다양한 명령어에 대해 종종 불안정성을 보입니다. 이러한 제한 사항을 극복하기 위해, 클래스 적응형 레이어 융합 및 이중 단계 가지치기를 기반으로 하는 토큰 감소 프레임워크인 CLASP를 제안합니다. 구체적으로, CLASP는 먼저 다층 시각 특징 융합을 통해 카테고리별 시각적 표현을 구축합니다. 그런 다음, CLASP는 관련성을 갖는 중요한 토큰(attention-salient pivot tokens)과 보완성을 갖는 토큰(redundancy-aware completion tokens) 사이에 토큰 예산을 할당하는 이중 단계 가지치기를 수행합니다. 클래스 적응형 가지치기를 통해 CLASP는 프롬프트 기반 특징 융합 및 예산 할당을 가능하게 하여, 공격적이면서도 강력한 시각적 토큰 감소를 달성합니다. 광범위한 실험 결과, CLASP는 다양한 벤치마크, 가지치기 비율 및 MLLM 아키텍처에서 기존 방법보다 일관되게 우수한 성능을 보입니다. 코드 및 관련 자료는 https://github.com/Yunkaidang/CLASP에서 확인할 수 있습니다.

Original Abstract

Multimodal Large Language Models (MLLMs) suffer from substantial computational overhead due to the high redundancy in visual token sequences. Existing approaches typically address this issue using single-layer Vision Transformer (ViT) features and static pruning strategies. However, such fixed configurations are often brittle under diverse instructions. To overcome these limitations, we propose CLASP, a plug-and-play token reduction framework based on class-adaptive layer fusion and dual-stage pruning. Specifically, CLASP first constructs category-specific visual representations through multi-layer vision feature fusion. It then performs dual-stage pruning, allocating the token budget between attention-salient pivot tokens for relevance and redundancy-aware completion tokens for coverage. Through class-adaptive pruning, CLASP enables prompt-conditioned feature fusion and budget allocation, allowing aggressive yet robust visual token reduction. Extensive experiments demonstrate that CLASP consistently outperforms existing methods across a wide range of benchmarks, pruning ratios, and MLLM architectures. Code will be available at https://github.com/Yunkaidang/CLASP.

0 Citations
0 Influential
38.5 Altmetric
192.5 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!