2604.23407v1 Apr 25, 2026 cs.CV

PushupBench: 귀하의 VLM은 팔굽혀펴기 횟수를 세는 데 능숙하지 않습니다

PushupBench: Your VLM is not good at counting pushups

Shichao Pei
Shichao Pei
Citations: 46
h-index: 2
Shengzhi Li
Shengzhi Li
Citations: 44
h-index: 2
Jiarun Chen
Jiarun Chen
Citations: 10
h-index: 3
Karun Sharma
Karun Sharma
Citations: 8
h-index: 2
Jiaqi Su
Jiaqi Su
Citations: 3
h-index: 1

대규모 시각-언어 모델(VLM)은 비디오에서 *무엇*이 발생하는지 인식할 수 있지만, *얼마나 많이* 발생하는지 세는 데는 실패합니다. 본 논문에서는 반복 횟수 평가를 위한 데이터셋인 **PushupBench**를 소개합니다. PushupBench는 평균 36.7초 길이의 446개의 긴 비디오 클립으로 구성되어 있습니다. 현재 최고 성능 모델은 42.1%의 정확도를 달성했지만, 오픈 소스 4B 모델은 약 6%의 성능을 보이며, 이는 지도 학습 기반 모델과 유사한 수준입니다. 정확도만으로는 모델의 성능을 제대로 평가할 수 없으며, 일부 성능이 낮은 모델은 시간적 추론을 수행하는 대신 모달(modal) 정보를 활용하는 경향이 있습니다. 1,000개의 샘플로 구성된 데이터셋으로 횟수를 세는 방식으로 모델을 미세 조정하면 일반적인 비디오 이해 능력 향상으로 이어집니다. 구체적으로 MVBench (+2.15), PerceptionTest (+1.88), TVBench (+4.54)에서 성능이 향상되었으며, 이는 횟수 세기가 더 광범위한 시간적 추론 능력을 나타내는 지표임을 시사합니다. PushupBench는 exttt{lmms-eval} (https://github.com/EvolvingLMMs-Lab/lmms-eval/pull/1262)에 통합되었으며, (pushupbench.com/)에서 확인할 수 있습니다.

Original Abstract

Large vision-language models (VLMs) can recognize \textit{what} happens in video but fail to count \textit{how many} times. We introduce \textbf{PushupBench}, 446 long-form clips (avg. 36.7s) for evaluating repetition counting. The best frontier model achieves 42.1\% exact accuracy; open-source 4B models score $\sim$6\%, matching supervised baselines. We show that accuracy alone misleads -- weaker models exploit the modal count rather than reason temporally. Fine-tuning on counting with 1k samples transfers to general video understanding: MVBench (+2.15), PerceptionTest (+1.88), TVBench (+4.54), suggesting counting is a proxy for broader temporal reasoning.PushupBench incorporated in \texttt{lmms-eval} (https://github.com/EvolvingLMMs-Lab/lmms-eval/pull/1262) and hosted on (pushupbench.com/)

0 Citations
0 Influential
61.5 Altmetric
307.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!