Think-Clip-Sample: 비디오 이해를 위한 느린-빠른 프레임 선택 방법
Think-Clip-Sample: Slow-Fast Frame Selection for Video Understanding
최근 멀티모달 대규모 언어 모델(MLLM)의 발전은 비디오 이해 분야에 상당한 진전을 가져왔습니다. 하지만 이러한 모델들의 장편 비디오에 대한 성능은 여전히 계산 자원의 제약과 최적화되지 않은 프레임 선택으로 인해 제한됩니다. 본 논문에서는 Think-Clip-Sample (TCS)이라는 학습이 필요 없는 프레임워크를 제시합니다. TCS는 장편 비디오 이해를 향상시키기 위해 다음 두 가지 핵심 구성 요소를 포함합니다. (i) Multi-Query Reasoning: 질문과 비디오의 상호 보완적인 측면을 파악하기 위해 여러 개의 쿼리를 생성합니다. (ii) Clip-level Slow-Fast Sampling: 밀집된 지역적 세부 정보와 희소한 전역적 맥락을 적응적으로 균형 있게 조절합니다. MLVU, LongVideoBench, VideoMME 데이터셋에 대한 광범위한 실험 결과, TCS는 다양한 MLLM에서 일관되게 성능을 향상시키며, 최대 6.9%의 정확도 향상을 보여줍니다. 또한 TCS는 추론 시간 비용을 50% 절감하면서도 동등한 정확도를 달성할 수 있으며, 이는 장편 비디오 이해에 있어서 TCS의 효율성과 효과성을 강조합니다.
Recent progress in multi-modal large language models (MLLMs) has significantly advanced video understanding. However, their performance on long-form videos remains limited by computational constraints and suboptimal frame selection. We present Think-Clip-Sample (TCS), a training-free framework that enhances long video understanding through two key components: (i) Multi-Query Reasoning, which generates multiple queries to capture complementary aspects of the question and video; and (ii) Clip-level Slow-Fast Sampling, which adaptively balances dense local details and sparse global context. Extensive experiments on MLVU, LongVideoBench, and VideoMME demonstrate that TCS consistently improves performance across different MLLMs, boosting up to 6.9% accuracy, and is capable of achieving comparable accuracy with 50% fewer inference time cost, highlighting both efficiency and efficacy of TCS on long video understanding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.