강화 학습을 이용한 효율적인 비디오 이해를 위한 기여도 기반 토큰 압축
Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning
비디오 대규모 언어 모델은 비디오 이해 작업에서 놀라운 성능을 보여주었습니다. 그러나 비디오 토큰의 중복성은 추론 과정에서 상당한 계산 오버헤드를 발생시켜 실제 활용을 제한합니다. 많은 압축 알고리즘이 어텐션 점수가 가장 높은 특징을 우선적으로 유지하여 어텐션 계산 과정에서의 변화를 최소화하는 것을 목표로 합니다. 그러나 어텐션 점수와 정답에 대한 실제 기여도 사이의 상관관계는 여전히 불분명합니다. 이러한 제한점을 해결하기 위해, 우리는 비디오 이해를 위한 기여도 기반 토큰 압축 알고리즘인 CaCoVID(Contribution-aware Token Compression for VIDeo understanding)를 제안합니다. CaCoVID는 토큰이 올바른 예측에 기여하는 정도를 명시적으로 고려하여 토큰 선택 정책을 최적화합니다. 먼저, 우리는 강화 학습 기반 프레임워크를 도입하여 정책 네트워크를 최적화하고, 올바른 예측에 가장 큰 기여를 하는 비디오 토큰 조합을 선택합니다. 이러한 방식은 수동적인 토큰 보존에서 벗어나 최적의 압축된 토큰 조합을 능동적으로 탐색하도록 합니다. 둘째, 우리는 온라인 조합 공간 샘플링을 사용하는 조합 정책 최적화 알고리즘을 제안하여 비디오 토큰 조합에 대한 탐색 공간을 크게 줄이고 정책 최적화의 수렴 속도를 가속화합니다. 다양한 비디오 이해 벤치마크에 대한 광범위한 실험 결과는 CaCoVID의 효과를 입증합니다. 코드 및 관련 자료는 다음 링크에서 확인할 수 있습니다: https://github.com/LivingFutureLab/CaCoVID.
Video large language models have demonstrated remarkable capabilities in video understanding tasks. However, the redundancy of video tokens introduces significant computational overhead during inference, limiting their practical deployment. Many compression algorithms are proposed to prioritize retaining features with the highest attention scores to minimize perturbations in attention computations. However, the correlation between attention scores and their actual contribution to correct answers remains ambiguous. To address the above limitation, we propose a novel \textbf{C}ontribution-\textbf{a}ware token \textbf{Co}mpression algorithm for \textbf{VID}eo understanding (\textbf{CaCoVID}) that explicitly optimizes the token selection policy based on the contribution of tokens to correct predictions. First, we introduce a reinforcement learning-based framework that optimizes a policy network to select video token combinations with the greatest contribution to correct predictions. This paradigm shifts the focus from passive token preservation to active discovery of optimal compressed token combinations. Secondly, we propose a combinatorial policy optimization algorithm with online combination space sampling, which dramatically reduces the exploration space for video token combinations and accelerates the convergence speed of policy optimization. Extensive experiments on diverse video understanding benchmarks demonstrate the effectiveness of CaCoVID. Codes are available at https://github.com/LivingFutureLab/CaCoVID.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.