CLASP: 클래스 적응형 레이어 융합 및 이중 단계 가지치기를 이용한 다중 모드 대규모 언어 모델
CLASP: Class-Adaptive Layer Fusion and Dual-Stage Pruning for Multimodal Large Language Models
다중 모드 대규모 언어 모델(MLLM)은 시각적 토큰 시퀀스의 높은 중복성으로 인해 상당한 계산 오버헤드를 발생시킵니다. 기존 접근 방식은 일반적으로 단일 레이어 Vision Transformer(ViT) 특징과 정적 가지치기 전략을 사용하여 이 문제를 해결합니다. 그러나 이러한 고정된 구성은 다양한 명령어에 대해 종종 불안정성을 보입니다. 이러한 제한 사항을 극복하기 위해, 클래스 적응형 레이어 융합 및 이중 단계 가지치기를 기반으로 하는 토큰 감소 프레임워크인 CLASP를 제안합니다. 구체적으로, CLASP는 먼저 다층 시각 특징 융합을 통해 카테고리별 시각적 표현을 구축합니다. 그런 다음, CLASP는 관련성을 갖는 중요한 토큰(attention-salient pivot tokens)과 보완성을 갖는 토큰(redundancy-aware completion tokens) 사이에 토큰 예산을 할당하는 이중 단계 가지치기를 수행합니다. 클래스 적응형 가지치기를 통해 CLASP는 프롬프트 기반 특징 융합 및 예산 할당을 가능하게 하여, 공격적이면서도 강력한 시각적 토큰 감소를 달성합니다. 광범위한 실험 결과, CLASP는 다양한 벤치마크, 가지치기 비율 및 MLLM 아키텍처에서 기존 방법보다 일관되게 우수한 성능을 보입니다. 코드 및 관련 자료는 https://github.com/Yunkaidang/CLASP에서 확인할 수 있습니다.
Multimodal Large Language Models (MLLMs) suffer from substantial computational overhead due to the high redundancy in visual token sequences. Existing approaches typically address this issue using single-layer Vision Transformer (ViT) features and static pruning strategies. However, such fixed configurations are often brittle under diverse instructions. To overcome these limitations, we propose CLASP, a plug-and-play token reduction framework based on class-adaptive layer fusion and dual-stage pruning. Specifically, CLASP first constructs category-specific visual representations through multi-layer vision feature fusion. It then performs dual-stage pruning, allocating the token budget between attention-salient pivot tokens for relevance and redundancy-aware completion tokens for coverage. Through class-adaptive pruning, CLASP enables prompt-conditioned feature fusion and budget allocation, allowing aggressive yet robust visual token reduction. Extensive experiments demonstrate that CLASP consistently outperforms existing methods across a wide range of benchmarks, pruning ratios, and MLLM architectures. Code will be available at https://github.com/Yunkaidang/CLASP.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.