VideoRouter: 효율적인 장편 비디오 이해를 위한 쿼리 적응형 이중 라우팅
VideoRouter: Query-Adaptive Dual Routing for Efficient Long-Video Understanding
비디오 대규모 멀티모달 모델은 점점 더 심각한 확장성 문제를 안고 있습니다. 장편 비디오는 과도하게 긴 시각적 토큰 시퀀스를 생성하며, 이는 추론 과정에서 메모리 사용량과 지연 시간을 크게 증가시킵니다. 기존의 압축 방법은 특정 환경에서는 효과적이지만, 대부분 쿼리에 대한 고려가 부족하거나 프레임 전체에 대해 고정된 압축 정책을 적용하여, 시간 경과에 따라 시각적 정보가 불균등하게 분포하는 경우 최적이 아닌 결과를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 InternVL을 기반으로 예산 내 증거 할당을 위한 쿼리 적응형 이중 라우터 프레임워크인 VideoRouter를 제안합니다. Semantic Router는 광범위한 시간적 범위를 포괄하거나, 적응적으로 고해상도를 유지하는 것 사이에서 지배적인 할당 정책을 선택합니다. Image Router는 초기 LLM 레이어를 사용하여 프레임의 관련성을 평가합니다. 이를 통해 중요하지 않은 프레임에 대해 적극적인 압축을 수행하면서도 중요한 증거 프레임의 세부 정보를 유지할 수 있습니다. 두 개의 라우터를 훈련하기 위해, 할당 정책 감독을 위한 Video-QTR-10K와 프레임 관련성 감독을 위한 Video-FLR-200K 데이터셋을 구축했습니다. VideoMME, MLVU 및 LongVideoBench에 대한 실험 결과, VideoRouter는 동일하거나 더 낮은 예산으로 InternVL 기본 모델보다 일관되게 성능이 향상되었으며, 최대 67.9%의 토큰 감소를 달성했습니다.
Video large multimodal models increasingly face a scalability bottleneck: long videos produce excessively long visual-token sequences, which sharply increase memory and latency during inference. While existing compression methods are effective in specific settings, most are either weakly query-aware or apply a fixed compression policy across frames, proving suboptimal when visual evidence is unevenly distributed over time. To address this, we present VideoRouter, a query-adaptive dual-router framework built on InternVL for budgeted evidence allocation. The Semantic Router predicts the dominant allocation policy, choosing between broad temporal coverage and adaptive high-resolution preservation, while the Image Router uses early LLM layers to score frame relevance. This enables aggressive compression on less relevant frames while preserving detail on critical evidence frames. To train both routers, we build Video-QTR-10K for allocation-policy supervision and Video-FLR-200K for frame-relevance supervision. Experiments on VideoMME, MLVU, and LongVideoBench show that VideoRouter consistently improves over the InternVL baseline under comparable or lower budgets, achieving up to a 67.9% token reduction.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.