2604.15188v1 Apr 16, 2026 cs.CV

VisPCO: 예산 기반 파레토 프론티어 학습을 통한 시각 토큰 가지치기 구성 최적화: 비전-언어 모델을 위한 방법

VisPCO: Visual Token Pruning Configuration Optimization via Budget-Aware Pareto-Frontier Learning for Vision-Language Models

Luoyi Fu
Luoyi Fu
Citations: 3,679
h-index: 31
Jiaxin Ding
Jiaxin Ding
Citations: 157
h-index: 7
Xinbing Wang
Xinbing Wang
Citations: 5
h-index: 2
Huawei Ji
Huawei Ji
Citations: 1
h-index: 1
Yuan Sun
Yuan Sun
Citations: 1
h-index: 1
Yuanhao Jin
Yuanhao Jin
Citations: 0
h-index: 0
Cheng Deng
Cheng Deng
Citations: 55
h-index: 4

시각 토큰 가지치기 방법은 고해상도 이미지 및 비디오 프레임을 처리할 때 발생하는 제곱 단위의 계산량 증가를 효과적으로 완화합니다. 그러나 기존 방법은 미리 정의된 가지치기 구성을 사용하며, 이러한 구성이 계산-성능 최적성을 달성하는지 여부를 결정하지 않습니다. 본 연구에서는 시각 토큰 가지치기를 파레토 구성 최적화 문제로 공식화하여 최적의 구성을 자동으로 식별하는 새로운 프레임워크인 VisPCO를 소개합니다. 저희의 접근 방식은 연속적인 이완 및 스트레이트-스루 추정기를 사용하여 그래디언트 기반 검색을 가능하게 하며, 증강 라그랑지안 방법을 통해 해결합니다. 8개의 시각 벤치마크에 대한 광범위한 실험 결과, VisPCO는 그리드 검색을 통해 얻은 경험적 파레토 프론티어를 효과적으로 근사하며, 다양한 가지치기 방법 및 VLM 아키텍처에 대해 잘 일반화됩니다. 또한, 학습 가능한 커널 함수를 사용하여 레이어별 가지치기 패턴을 조사하고, 다단계 점진적 가지치기가 VLM의 계층적 압축 구조를 잘 반영하여 단일 레이어 접근 방식에 비해 우수한 정확도-효율성 균형을 달성함을 밝혀냅니다.

Original Abstract

Visual token pruning methods effectively mitigate the quadratic computational growth caused by processing high-resolution images and video frames in vision-language models (VLMs). However, existing approaches rely on predefined pruning configurations without determining whether they achieve computation-performance optimality. In this work, we introduce , a novel framework that formulates visual token pruning as a Pareto configuration optimization problem to automatically identify optimal configurations. Our approach employs continuous relaxation and straight-through estimators to enable gradient-based search, solved via the Augmented Lagrangian method. Extensive experiments across 8 visual benchmarks demonstrate that effectively approximates the empirical Pareto frontier obtained through grid search and generalizes well across various pruning methods and VLM architectures. Furthermore, through learnable kernel functions, we investigate layer-wise pruning patterns and reveal that multi-step progressive pruning captures VLMs' hierarchical compression structure, achieving superior accuracy-efficiency trade-offs compared to single-layer approaches.

0 Citations
0 Influential
15.5 Altmetric
77.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!