효율적인 비디오 멀티모달 모델을 위한 통합 시공간 토큰 점수화
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs
비전-언어 모델(VLM)의 계산 효율성을 향상시키는 데 토큰 가지치기는 필수적이며, 특히 시간적 중복성이 높은 비디오 기반 작업에서 더욱 중요합니다. 기존 연구들은 일반적으로 토큰을 (1) 단일 모달 인지 작업(예: 행동 인식, 객체 분할)을 위해 비전 트랜스포머(ViT) 내에서만 가지치기하거나, (2) LLM 내에서만 가지치기하며, ViT의 출력을 그대로 유지하는 경우가 많아 복잡한 텍스트 기반 토큰 선택 메커니즘이 필요합니다. 본 논문에서는 Spatio-Temporal Token Scoring (STTS)라는 간단하고 가벼운 모듈을 제안합니다. STTS는 텍스트 조건 없이 또는 토큰 병합 없이 ViT와 LLM 전반에 걸쳐 비전 토큰을 가지치기하며, 엔드투엔드 학습과 완벽하게 호환됩니다. STTS는 보조 손실을 통해 시간적 특성을 학습하고, LLM의 다운스트림 그래디언트를 통해 공간적 특성을 학습하며, 효율적인 패킹 알고리즘을 활용하여 아키텍처 전체에서 비전 토큰의 50%를 가지치기합니다. 그 결과, 13개의 짧은 및 긴 비디오 질의응답 작업에서 평균 성능이 0.7% 감소하는 것 외에는, 학습 및 추론 과정에서 모두 62%의 효율성 향상을 달성했습니다. 비디오당 샘플링된 프레임 수가 증가함에 따라 효율성 향상 효과는 더욱 증가합니다. 또한, 긴 비디오 질의응답 작업에서 테스트 시점에 스케일링을 적용하면 기준 모델에 비해 0.5-1%의 추가적인 성능 향상을 얻을 수 있습니다. 전반적으로, STTS는 통합적이고 아키텍처 전체에 적용 가능한 비전 토큰 가지치기를 위한 혁신적이고 간단하면서도 효과적인 기술입니다.
Token pruning is essential for enhancing the computational efficiency of vision-language models (VLMs), particularly for video-based tasks where temporal redundancy is prevalent. Prior approaches typically prune tokens either (1) within the vision transformer (ViT) exclusively for unimodal perception tasks such as action recognition and object segmentation, without adapting to downstream vision-language tasks; or (2) only within the LLM while leaving the ViT output intact, often requiring complex text-conditioned token selection mechanisms. In this paper, we introduce Spatio-Temporal Token Scoring (STTS), a simple and lightweight module that prunes vision tokens across both the ViT and the LLM without text conditioning or token merging, and is fully compatible with end-to-end training. By learning how to score temporally via an auxiliary loss and spatially via LLM downstream gradients, aided by our efficient packing algorithm, STTS prunes 50% of vision tokens throughout the entire architecture, resulting in a 62% improvement in efficiency during both training and inference with only a 0.7% drop in average performance across 13 short and long video QA tasks. Efficiency gains increase with more sampled frames per video. Applying test-time scaling for long-video QA further yields performance gains of 0.5-1% compared to the baseline. Overall, STTS represents a novel, simple yet effective technique for unified, architecture-wide vision token pruning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.