DreamDojo: 대규모 인간 비디오 데이터를 활용한 범용 로봇 세계 모델
DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos
다양한 환경에서 행동의 결과를 시뮬레이션할 수 있게 되면, 대규모 범용 에이전트 개발에 혁신을 가져올 것입니다. 그러나 특히 숙련된 로봇 작업의 경우, 제한된 데이터 범위와 부족한 동작 레이블로 인해 이러한 세계 역학을 모델링하는 것은 상당한 어려움을 야기합니다. 이러한 목표를 달성하기 위해, 저희는 44,000시간의 1인칭 인간 비디오에서 다양한 상호 작용과 숙련된 제어를 학습하는 기초 세계 모델인 DreamDojo를 소개합니다. 저희의 데이터셋은 현재까지 세계 모델 사전 훈련을 위한 가장 큰 비디오 데이터셋으로, 다양한 객체와 기술이 포함된 광범위한 일상 시나리오를 포괄합니다. 동작 레이블의 부족 문제를 해결하기 위해, 저희는 연속적인 잠재 동작을 통일된 프록시 동작으로 도입하여, 레이블이 없는 비디오에서 상호 작용 지식 전달을 향상시켰습니다. 소규모 대상 로봇 데이터로 추가 훈련을 거친 DreamDojo는 물리학에 대한 강력한 이해와 정확한 동작 제어 능력을 보여줍니다. 또한, 저희는 DreamDojo를 실시간 속도인 10.81 FPS로 가속화하고, 문맥 일관성을 더욱 향상시키는 증류 파이프라인을 개발했습니다. 저희의 연구는 생성적 세계 모델을 기반으로 하는 다양한 중요한 응용 분야를 가능하게 하며, 여기에는 실시간 원격 조작, 정책 평가 및 모델 기반 계획이 포함됩니다. 여러 가지 어려운 분포 외(OOD) 벤치마크에 대한 체계적인 평가를 통해, 저희의 방법이 개방형 환경의 접촉이 많은 작업을 시뮬레이션하는 데 중요한 역할을 하며, 범용 로봇 세계 모델 개발의 길을 열어준다는 것을 확인했습니다.
Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of daily scenarios with diverse objects and skills. To address the scarcity of action labels, we introduce continuous latent actions as unified proxy actions, enhancing interaction knowledge transfer from unlabeled videos. After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability. We also devise a distillation pipeline that accelerates DreamDojo to a real-time speed of 10.81 FPS and further improves context consistency. Our work enables several important applications based on generative world models, including live teleoperation, policy evaluation, and model-based planning. Systematic evaluation on multiple challenging out-of-distribution (OOD) benchmarks verifies the significance of our method for simulating open-world, contact-rich tasks, paving the way for general-purpose robot world models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.