2601.15282v1 Jan 21, 2026 cs.CV

구체화된 환경을 위한 비디오 생성 모델 재고

Rethinking Video Generation Model for the Embodied World

Yufan Deng
Yufan Deng
Citations: 5
h-index: 2
Daquan Zhou
Daquan Zhou
Citations: 5
h-index: 2
Hongyu Zhang
Hongyu Zhang
Citations: 60
h-index: 4
Zilin Pan
Zilin Pan
Citations: 54
h-index: 3
Xiaojie Li
Xiaojie Li
Citations: 15
h-index: 3
Ruoqing Hu
Ruoqing Hu
Citations: 14
h-index: 2
Yufei Ding
Yufei Ding
Peking University, Stanford University
Citations: 174
h-index: 4
Yiming Zou
Yiming Zou
Citations: 59
h-index: 4
Yangyang Zeng
Yangyang Zeng
Citations: 169
h-index: 4

비디오 생성 모델은 구체화된 지능 분야에 상당한 발전을 가져왔으며, 이는 물리 세계에서 인식, 추론 및 행동을 포착하는 다양한 로봇 데이터를 생성할 수 있는 새로운 가능성을 열어주었습니다. 그러나 실제 로봇 상호 작용을 정확하게 반영하는 고품질 비디오를 합성하는 것은 여전히 어려운 과제이며, 표준화된 벤치마크의 부족은 공정한 비교와 발전을 제한합니다. 이러한 격차를 해소하기 위해, 우리는 로봇 중심 비디오 생성을 평가하기 위해 설계된 포괄적인 로봇 벤치마크인 RBench를 소개합니다. RBench는 5가지 작업 도메인과 4가지 서로 다른 구체화 방식을 포함합니다. 이 벤치마크는 구조적 일관성, 물리적 타당성, 행동 완전성과 같은 재현 가능한 하위 지표를 통해 작업 수준의 정확성과 시각적 충실도를 모두 평가합니다. 25개의 대표적인 모델에 대한 평가는 물리적으로 현실적인 로봇 행동을 생성하는 데 상당한 결함이 있음을 보여줍니다. 또한, 이 벤치마크는 인간 평가와 0.96의 스피어만 상관 계수를 달성하여 그 효과를 검증합니다. RBench는 이러한 결함을 식별하는 데 필요한 도구를 제공하지만, 물리적 현실감을 달성하려면 평가를 넘어 고품질 학습 데이터 부족 문제를 해결해야 합니다. 이러한 통찰력을 바탕으로, 우리는 4단계 데이터 파이프라인을 개선하여 4백만 개의 주석이 달린 비디오 클립을 포함하는 최대 규모의 오픈 소스 로봇 데이터 세트인 RoVid-X를 개발했습니다. RoVid-X는 수천 가지 작업 영역을 포괄하며, 포괄적인 물리적 속성 주석이 포함되어 있습니다. 이러한 평가 및 데이터의 시너지 효과는 비디오 모델의 엄격한 평가 및 확장 가능한 학습을 위한 견고한 기반을 구축하여 구체화된 AI가 일반 지능으로 발전하는 속도를 가속화합니다.

Original Abstract

Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.

3 Citations
0 Influential
2 Altmetric
13.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!