RoboWM-Bench: 로봇 조작을 위한 월드 모델 평가 벤치마크
RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation
최근 대규모 비디오 월드 모델의 발전으로 더욱 현실적인 미래 예측이 가능해지면서, 로봇 학습에 상상된 비디오를 활용할 수 있는 가능성이 열리고 있습니다. 그러나 시각적 현실성이 물리적 타당성을 의미하는 것은 아니며, 생성된 비디오에서 추론된 행동은 역학적 제약을 위반하거나 실제 로봇 에이전트가 실행할 때 실패할 수 있습니다. 기존 벤치마크는 물리적 타당성 개념을 일부 포함하고 있지만, 주로 인지 또는 진단 지향적이며, 예측된 행동이 의도된 작업을 완료하는 실행 가능한 행동으로 변환될 수 있는지 체계적으로 평가하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 로봇 조작 중심의 벤치마크인 RoboWM-Bench를 소개합니다. RoboWM-Bench는 인간 손 및 로봇 조작 비디오에서 생성된 행동을 실제 로봇의 행동 시퀀스로 변환하고, 로봇을 통해 실행하여 검증합니다. 이 벤치마크는 다양한 조작 시나리오를 포괄하며, 일관되고 재현 가능한 평가를 위한 통일된 프로토콜을 제공합니다. RoboWM-Bench를 사용하여 최첨단 비디오 월드 모델을 평가한 결과, 물리적으로 실행 가능한 행동을 안정적으로 생성하는 것은 여전히 해결해야 할 과제임이 확인되었습니다. 흔히 발생하는 오류는 공간 추론 오류, 불안정한 접촉 예측, 비물리적인 변형 등이 있습니다. 조작 데이터를 사용하여 모델을 미세 조정하면 개선 효과가 있지만, 여전히 물리적 불일치가 존재하며, 이는 로봇을 위한 더욱 물리적으로 기반한 비디오 생성의 기회를 시사합니다.
Recent advances in large-scale video world models have enabled increasingly realistic future prediction, raising the prospect of leveraging imagined videos for robot learning. However, visual realism does not imply physical plausibility, and behaviors inferred from generated videos may violate dynamics and fail when executed by embodied agents. Existing benchmarks begin to incorporate notions of physical plausibility, but they largely remain perception- or diagnostic-oriented and do not systematically evaluate whether predicted behaviors can be translated into executable actions that complete the intended task. To address this gap, we introduce RoboWM-Bench, a manipulation-centric benchmark for embodiment-grounded evaluation of video world models. RoboWM-Bench converts generated behaviors from both human-hand and robotic manipulation videos into embodied action sequences and validates them through robotic execution. The benchmark spans diverse manipulation scenarios and establishes a unified protocol for consistent and reproducible evaluation. Using RoboWM-Bench, we evaluate state-of-the-art video world models and find that reliably generating physically executable behaviors remains an open challenge. Common failure modes include errors in spatial reasoning, unstable contact prediction, and non-physical deformations. While finetuning on manipulation data yields improvements, physical inconsistencies still persist, suggesting opportunities for more physically grounded video generation for robots.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.