EvoPrune: 효율적인 멀티모달 대규모 언어 모델을 위한 초기 단계 시각 토큰 가지치기
EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs
멀티모달 대규모 언어 모델(MLLM)은 시각-언어 작업에서 뛰어난 성능을 보여주지만, 고해상도 이미지 및 비디오와 같은 복잡한 시나리오에서 시각 토큰의 기하급수적인 증가로 인해 추론 효율성이 크게 제한됩니다. 기존의 시각 토큰 가지치기 방법은 주로 시각 인코딩 이후에 작동하며, 인코딩 단계에서 발생하는 상당한 계산 비용을 간과합니다. 이러한 문제를 해결하기 위해, 우리는 MLLM의 초기 단계에서 시각 인코딩 과정에 직접적으로 적용되는 시각 토큰 가지치기 방법인 EvoPrune을 제안합니다. 구체적으로, EvoPrune은 토큰 유사성, 다양성 및 어텐션 기반 중요도를 활용하여 선택된 인코딩 레이어에서 가장 중요한 시각 토큰을 유지하는 레이어별 가지치기 전략을 사용합니다. 이미지 및 비디오 벤치마크에 대한 광범위한 실험을 통해 EvoPrune의 효과성을 검증했습니다. 특히, VideoMME 데이터셋에서 EvoPrune은 1% 미만의 성능 저하로 2배의 추론 속도 향상을 달성하여, 지연 시간에 민감한 MLLM 배포에 대한 잠재력을 보여줍니다.
Multimodal Large Language Models (MLLMs) have shown strong performance in vision-language tasks, but their inference efficiency is severely limited by the exponential growth of visual tokens in complex scenarios such as high-resolution images and videos. Existing visual token pruning methods mainly operate after visual encoding, overlooking the substantial computational cost incurred during the encoding stage. To address this issue, we propose EvoPrune, an early-stage visual token pruning method for MLLMs that performs pruning directly during visual encoding. Specifically, EvoPrune employs a layer-wise pruning strategy guided by token similarity, diversity, and attention-based importance to retain the most informative visual tokens at selected encoding layers. Extensive experiments on image and video benchmarks validate the effectiveness of EvoPrune. In particular, on the VideoMME dataset, EvoPrune achieves 2$\times$ inference speedup with less than 1% performance degradation, demonstrating its potential for latency-sensitive MLLM deployment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.