2603.14375v1 Mar 15, 2026 cs.CV

움직임의 맥박: 시각적 역학으로부터 물리적 프레임 속도 측정

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

Fangzhou Lin
Fangzhou Lin
Citations: 20
h-index: 3
Xiangbo Gao
Xiangbo Gao
Citations: 235
h-index: 8
Zhengzhong Tu
Zhengzhong Tu
Citations: 22
h-index: 4
Jiongze Yu
Jiongze Yu
Citations: 34
h-index: 3
Mingyang Wu
Mingyang Wu
Citations: 51
h-index: 4
Siyu Yang
Siyu Yang
Citations: 5
h-index: 1
P. Taghavi
P. Taghavi
Citations: 29
h-index: 2

최근 생성 비디오 모델은 놀라운 시각적 현실감을 달성했으며, 세계 모델로 탐구되고 있지만, 진정한 물리 시뮬레이션은 공간과 시간을 모두 마스터해야 합니다. 현재 모델은 시각적으로 매끄러운 운동을 생성할 수 있지만, 이러한 운동을 일관되고 현실적인 시간 척도로 고정할 수 있는 신뢰할 수 있는 내부 운동 맥박이 부족합니다. 이러한 시간적 모호성은 다양한 실제 속도를 가진 비디오를 무차별적으로 학습시키는 일반적인 관행에서 비롯되며, 이는 모델을 표준화된 프레임 속도로 강제합니다. 이는 우리가 '시간적 환각(chronometric hallucination)'이라고 부르는 현상으로 이어지며, 생성된 시퀀스는 모호하고 불안정하며 제어할 수 없는 물리적 운동 속도를 나타냅니다. 이를 해결하기 위해, 우리는 입력 비디오의 시각적 역학으로부터 물리적 프레임 초당(PhyFPS) 값을 직접 추정하는 예측 모델인 '시각적 시계(Visual Chronometer)'를 제안합니다. 우리의 방법은 제어된 시간 재샘플링을 통해 학습되며, 비디오 자체에서 암시하는 실제 시간 척도를 추정하여 신뢰할 수 없는 메타데이터에 의존하지 않습니다. 이 문제를 체계적으로 정량화하기 위해, 우리는 PhyFPS-Bench-Real 및 PhyFPS-Bench-Gen이라는 두 가지 벤치마크를 구축했습니다. 우리의 평가는 가혹한 현실을 드러냅니다. 최첨단 비디오 생성 모델은 심각한 PhyFPS 불일치 및 시간적 불안정성을 겪습니다. 마지막으로, PhyFPS 보정을 적용하면 AI가 생성한 비디오의 인간이 인지하는 자연스러움이 크게 향상된다는 것을 보여줍니다. 저희 프로젝트 페이지는 https://xiangbogaobarry.github.io/Visual_Chronometer/ 입니다.

Original Abstract

While recent generative video models have achieved remarkable visual realism and are being explored as world models, true physical simulation requires mastering both space and time. Current models can produce visually smooth kinematics, yet they lack a reliable internal motion pulse to ground these motions in a consistent, real-world time scale. This temporal ambiguity stems from the common practice of indiscriminately training on videos with vastly different real-world speeds, forcing them into standardized frame rates. This leads to what we term chronometric hallucination: generated sequences exhibit ambiguous, unstable, and uncontrollable physical motion speeds. To address this, we propose Visual Chronometer, a predictor that recovers the Physical Frames Per Second (PhyFPS) directly from the visual dynamics of an input video. Trained via controlled temporal resampling, our method estimates the true temporal scale implied by the motion itself, bypassing unreliable metadata. To systematically quantify this issue, we establish two benchmarks, PhyFPS-Bench-Real and PhyFPS-Bench-Gen. Our evaluations reveal a harsh reality: state-of-the-art video generators suffer from severe PhyFPS misalignment and temporal instability. Finally, we demonstrate that applying PhyFPS corrections significantly improves the human-perceived naturalness of AI-generated videos. Our project page is https://xiangbogaobarry.github.io/Visual_Chronometer/.

5 Citations
1 Influential
4 Altmetric
27.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!