PushupBench: 귀하의 VLM은 팔굽혀펴기 횟수를 세는 데 능숙하지 않습니다
PushupBench: Your VLM is not good at counting pushups
대규모 시각-언어 모델(VLM)은 비디오에서 *무엇*이 발생하는지 인식할 수 있지만, *얼마나 많이* 발생하는지 세는 데는 실패합니다. 본 논문에서는 반복 횟수 평가를 위한 데이터셋인 **PushupBench**를 소개합니다. PushupBench는 평균 36.7초 길이의 446개의 긴 비디오 클립으로 구성되어 있습니다. 현재 최고 성능 모델은 42.1%의 정확도를 달성했지만, 오픈 소스 4B 모델은 약 6%의 성능을 보이며, 이는 지도 학습 기반 모델과 유사한 수준입니다. 정확도만으로는 모델의 성능을 제대로 평가할 수 없으며, 일부 성능이 낮은 모델은 시간적 추론을 수행하는 대신 모달(modal) 정보를 활용하는 경향이 있습니다. 1,000개의 샘플로 구성된 데이터셋으로 횟수를 세는 방식으로 모델을 미세 조정하면 일반적인 비디오 이해 능력 향상으로 이어집니다. 구체적으로 MVBench (+2.15), PerceptionTest (+1.88), TVBench (+4.54)에서 성능이 향상되었으며, 이는 횟수 세기가 더 광범위한 시간적 추론 능력을 나타내는 지표임을 시사합니다. PushupBench는 exttt{lmms-eval} (https://github.com/EvolvingLMMs-Lab/lmms-eval/pull/1262)에 통합되었으며, (pushupbench.com/)에서 확인할 수 있습니다.
Large vision-language models (VLMs) can recognize \textit{what} happens in video but fail to count \textit{how many} times. We introduce \textbf{PushupBench}, 446 long-form clips (avg. 36.7s) for evaluating repetition counting. The best frontier model achieves 42.1\% exact accuracy; open-source 4B models score $\sim$6\%, matching supervised baselines. We show that accuracy alone misleads -- weaker models exploit the modal count rather than reason temporally. Fine-tuning on counting with 1k samples transfers to general video understanding: MVBench (+2.15), PerceptionTest (+1.88), TVBench (+4.54), suggesting counting is a proxy for broader temporal reasoning.PushupBench incorporated in \texttt{lmms-eval} (https://github.com/EvolvingLMMs-Lab/lmms-eval/pull/1262) and hosted on (pushupbench.com/)
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.