2602.20159v1 Feb 23, 2026 cs.CV

초대형 비디오 추론 스위트

A Very Big Video Reasoning Suite

Kevin I-Kai Wang
Kevin I-Kai Wang
Citations: 0
h-index: 0
Daniel Khashabi
Daniel Khashabi
Citations: 189
h-index: 7
Vikash Kumar
Vikash Kumar
Citations: 418
h-index: 6
Hanwen Xing
Hanwen Xing
Citations: 6
h-index: 1
Ruisi Wang
Ruisi Wang
Citations: 128
h-index: 6
Juyi Lin
Juyi Lin
Citations: 14
h-index: 1
Ran Ji
Ran Ji
Citations: 2
h-index: 1
Thaddaus Wiedemer
Thaddaus Wiedemer
Citations: 101
h-index: 3
Dezhi Luo
Dezhi Luo
Citations: 102
h-index: 6
Lianyu Huang
Lianyu Huang
Citations: 2
h-index: 1
Hang He
Hang He
Citations: 32
h-index: 2
Yifan Zhou
Yifan Zhou
Citations: 359
h-index: 10
Lingzi Guo
Lingzi Guo
Citations: 3
h-index: 1
Lantao Mei
Lantao Mei
Citations: 2,060
h-index: 2
Jiacheng Li
Jiacheng Li
Citations: 15
h-index: 2
Boyang Zhong
Boyang Zhong
Citations: 1
h-index: 1
Ze Zhao
Ze Zhao
Citations: 25
h-index: 2
Gaoyun Fang
Gaoyun Fang
Citations: 104
h-index: 4
John Kitaoka
John Kitaoka
Citations: 0
h-index: 0
Yile Xu
Yile Xu
Citations: 6
h-index: 2
Hua Xu
Hua Xu
Citations: 7
h-index: 1
Kenton Blacutt
Kenton Blacutt
Citations: 0
h-index: 0
Tin Nguyen
Tin Nguyen
Auburn University
Citations: 20
h-index: 2
Siyuan Song
Siyuan Song
Citations: 87
h-index: 3
Shao-Zhi Wen
Shao-Zhi Wen
Citations: 0
h-index: 0
Runming Wang
Runming Wang
Citations: 12
h-index: 1
Yanzhi Wang
Yanzhi Wang
Citations: 108
h-index: 5
Ziqiao Ma
Ziqiao Ma
University of Michigan
Citations: 1,071
h-index: 16
Raphaël Millière
Raphaël Millière
Citations: 81
h-index: 4
Freda Shi
Freda Shi
Citations: 17
h-index: 2
Nuno Vasconcelos
Nuno Vasconcelos
Citations: 69
h-index: 4
A. Yuille
A. Yuille
Citations: 104
h-index: 5
Yilun Du
Yilun Du
Citations: 367
h-index: 9
Bo Li
Bo Li
Citations: 13
h-index: 2
Dahua Lin
Dahua Lin
Citations: 38
h-index: 4
Yijiang Li
Yijiang Li
Citations: 80
h-index: 5
Maijunxian Wang
Maijunxian Wang
Citations: 4
h-index: 1
Qingying Gao
Qingying Gao
Citations: 69
h-index: 5
Lei Yang
Lei Yang
Citations: 144
h-index: 7
Yaoyao Qian
Yaoyao Qian
Citations: 69
h-index: 3
Jiahui Ge
Jiahui Ge
Citations: 0
h-index: 0
Qianli Ma
Qianli Ma
Citations: 438
h-index: 3
Tianqi Zhao
Tianqi Zhao
Citations: 69
h-index: 4
Feng Yu
Feng Yu
Citations: 52
h-index: 3
Wei Xiao
Wei Xiao
Citations: 31
h-index: 2
Yizheng Jiao
Yizheng Jiao
Citations: 552
h-index: 11
Pengcheng Xu
Pengcheng Xu
Citations: 186
h-index: 8
Haoran Sun
Haoran Sun
Citations: 36
h-index: 2
Linyang He
Linyang He
Citations: 56
h-index: 4
Mengyu Yang
Mengyu Yang
Citations: 0
h-index: 0
Ziming Liu
Ziming Liu
Citations: 18
h-index: 2
Ziwei Liu
Ziwei Liu
Citations: 3,472
h-index: 16
Zhongang Cai
Zhongang Cai
MMLab@NTU, Nanyang Technological University
Citations: 3,961
h-index: 29
Jian Hou
Jian Hou
Citations: 5
h-index: 1
Ze-Wen Hong
Ze-Wen Hong
Citations: 227
h-index: 9
Hokin Deng
Hokin Deng
Citations: 96
h-index: 6

비디오 모델의 급속한 발전은 주로 시각적 품질에 초점을 맞추어 왔으며, 그 추론 능력은 충분히 탐구되지 않은 채로 남아 있습니다. 비디오 추론은 텍스트가 자연스럽게 포착할 수 있는 한계를 넘어 시공간적으로 일관된 시각적 환경에 지능의 기반을 두며, 연속성, 상호작용, 인과관계와 같은 시공간적 구조에 대한 직관적인 추론을 가능하게 합니다. 그러나 비디오 추론 및 그 확장 거동(scaling behavior)에 대한 체계적인 연구는 대규모 훈련 데이터의 부족으로 인해 한계에 부딪혀 있습니다. 이러한 공백을 해결하기 위해, 우리는 기존 데이터셋보다 약 3자릿수 더 큰 규모를 자랑하며, 원칙적인 분류 체계에 따른 200개의 선별된 추론 작업과 100만 개 이상의 비디오 클립을 포괄하는 전례 없는 대규모 리소스인 VBVR(Very Big Video Reasoning) 데이터셋을 소개합니다. 나아가 우리는 모델 기반의 평가를 넘어 규칙 기반 및 인간의 판단과 일치하는 채점자를 통합하여, 비디오 추론 능력에 대한 재현 가능하고 해석 가능한 진단을 가능하게 하는 검증 가능한 평가 프레임워크인 VBVR-Bench를 제시합니다. 우리는 VBVR 스위트를 활용하여 비디오 추론에 대한 최초의 대규모 스케일링 연구 중 하나를 수행하였으며, 본 적 없는(unseen) 추론 작업에 대한 창발적 일반화의 초기 징후를 관찰했습니다. 종합적으로 VBVR은 일반화 가능한 비디오 추론 연구의 다음 단계를 위한 기반을 마련합니다. 데이터, 벤치마크 툴킷 및 모델은 https://video-reason.com/ 에서 공개적으로 이용할 수 있습니다.

Original Abstract

Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .

1 Citations
0 Influential
14.5 Altmetric
73.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!