초대형 비디오 추론 스위트
A Very Big Video Reasoning Suite
비디오 모델의 급속한 발전은 주로 시각적 품질에 초점을 맞추어 왔으며, 그 추론 능력은 충분히 탐구되지 않은 채로 남아 있습니다. 비디오 추론은 텍스트가 자연스럽게 포착할 수 있는 한계를 넘어 시공간적으로 일관된 시각적 환경에 지능의 기반을 두며, 연속성, 상호작용, 인과관계와 같은 시공간적 구조에 대한 직관적인 추론을 가능하게 합니다. 그러나 비디오 추론 및 그 확장 거동(scaling behavior)에 대한 체계적인 연구는 대규모 훈련 데이터의 부족으로 인해 한계에 부딪혀 있습니다. 이러한 공백을 해결하기 위해, 우리는 기존 데이터셋보다 약 3자릿수 더 큰 규모를 자랑하며, 원칙적인 분류 체계에 따른 200개의 선별된 추론 작업과 100만 개 이상의 비디오 클립을 포괄하는 전례 없는 대규모 리소스인 VBVR(Very Big Video Reasoning) 데이터셋을 소개합니다. 나아가 우리는 모델 기반의 평가를 넘어 규칙 기반 및 인간의 판단과 일치하는 채점자를 통합하여, 비디오 추론 능력에 대한 재현 가능하고 해석 가능한 진단을 가능하게 하는 검증 가능한 평가 프레임워크인 VBVR-Bench를 제시합니다. 우리는 VBVR 스위트를 활용하여 비디오 추론에 대한 최초의 대규모 스케일링 연구 중 하나를 수행하였으며, 본 적 없는(unseen) 추론 작업에 대한 창발적 일반화의 초기 징후를 관찰했습니다. 종합적으로 VBVR은 일반화 가능한 비디오 추론 연구의 다음 단계를 위한 기반을 마련합니다. 데이터, 벤치마크 툴킷 및 모델은 https://video-reason.com/ 에서 공개적으로 이용할 수 있습니다.
Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.