2603.22911v1 Mar 24, 2026 cs.CV

ForestPrune: 공간-시간 숲 모델링을 통한 비디오 멀티모달 대규모 언어 모델을 위한 고비율 시각적 토큰 압축

ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling

Rongrong Ji
Rongrong Ji
Citations: 239
h-index: 7
Huaixi Wang
Huaixi Wang
Citations: 10
h-index: 1
Yiyi Zhou
Yiyi Zhou
Citations: 2,878
h-index: 26
Shaobo Ju
Shaobo Ju
Citations: 0
h-index: 0
Baiyang Song
Baiyang Song
Citations: 0
h-index: 0
Tao Chen
Tao Chen
Citations: 11
h-index: 1
Jiapeng Zhang
Jiapeng Zhang
Citations: 340
h-index: 10
Qiong Wu
Qiong Wu
Citations: 153
h-index: 2
Chaokun Chang
Chaokun Chang
Citations: 98
h-index: 2

토큰 압축은 계산 및 메모리 오버헤드를 크게 줄일 수 있기 때문에 멀티모달 대규모 언어 모델(MLLM) 분야에서 중요한 연구 주제이며, 이미지-언어 작업에서 상당한 발전을 이루었습니다. 그러나 비디오의 경우, 기존 방법들은 여전히 높은 비율의 토큰 압축에 어려움을 겪고 있습니다. 이러한 한계는 비디오 콘텐츠의 시간적 연속성과 전체적인 내용을 충분히 모델링하지 못하기 때문에 발생한다고 볼 수 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해, 공간-시간 숲 모델링을 기반으로 비디오 MLLM에 대한 새로운 방식으로 토큰을 제거하는 방법, 즉 ForestPrune을 제안합니다. ForestPrune은 비디오 프레임 간에 의미, 공간 및 시간 제약 조건을 기반으로 토큰 숲을 구성하여 비디오의 전체적인 이해를 돕습니다. 이후 ForestPrune은 트리 깊이와 노드 역할에 따라 토큰 트리와 노드의 중요도를 평가하여 전역적으로 최적화된 토큰 제거 결정을 내립니다. ForestPrune의 성능을 검증하기 위해, 대표적인 비디오 MLLM인 LLaVA-Video와 LLaVA-OneVision에 적용하고 다양한 비디오 벤치마크에 대한 광범위한 실험을 수행했습니다. 실험 결과는 ForestPrune이 비디오 MLLM에 매우 효과적임을 보여줍니다. 예를 들어, LLaVA-OneVision의 경우 90%의 토큰을 제거하면서도 평균 정확도를 95.8%로 유지했습니다. 또한, ForestPrune은 비교 대상인 다른 토큰 압축 방법보다 우수한 성능과 효율성을 보여주었습니다. 예를 들어, MLVU 데이터셋에서 10.1%의 정확도 향상을 보였고, LLaVA-Video에서 FrameFusion보다 토큰 제거 시간이 81.4% 단축되었습니다.

Original Abstract

Due to the great saving of computation and memory overhead, token compression has become a research hot-spot for MLLMs and achieved remarkable progress in image-language tasks. However, for the video, existing methods still fall short of high-ratio token compression. We attribute this shortcoming to the insufficient modeling of temporal and continual video content, and propose a novel and training-free token pruning method for video MLLMs, termed ForestPrune, which achieves effective and high-ratio pruning via Spatial-temporal Forest Modeling. In practice, ForestPrune construct token forests across video frames based on the semantic, spatial and temporal constraints, making an overall comprehension of videos. Afterwards, ForestPrune evaluates the importance of token trees and nodes based on tree depth and node roles, thereby obtaining a globally optimal pruning decision. To validate ForestPrune, we apply it to two representative video MLLMs, namely LLaVA-Video and LLaVA-OneVision, and conduct extensive experiments on a bunch of video benchmarks. The experimental results not only show the great effectiveness for video MLLMs, e.g., retaining 95.8% average accuracy while reducing 90% tokens for LLaVA-OneVision, but also show its superior performance and efficiency than the compared token compression methods, e.g., +10.1% accuracy on MLVU and -81.4% pruning time than FrameFusion on LLaVA-Video.

0 Citations
0 Influential
13 Altmetric
65.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!