와우, 워, 발! 종합적인 에이전트 기반 세계 모델 평가 튜링 테스트
Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test
인공지능 분야에서 에이전트 기반 세계 모델의 중요성이 커짐에 따라, 3D 예측이나 상호작용 생성과 같은 하위 작업에 비디오 기반 모델을 예측 세계 모델로 활용하는 연구가 증가하고 있습니다. 그러나 이러한 하위 작업을 탐구하기 전에, 비디오 기반 모델은 여전히 해결해야 할 두 가지 중요한 질문을 가지고 있습니다. (1) 생성 모델의 일반화 성능이 인간 관찰자의 시각적 충실도를 유지할 만큼 충분한가? (2) 모델이 실제 세계 에이전트의 보편적인 사전 지식으로 사용될 만큼 견고한가? 이러한 질문에 대한 표준화된 프레임워크를 제공하기 위해, 우리는 'WoW-World-Eval (Wow, wo, val)'이라는 에이전트 기반 튜링 테스트 벤치마크를 소개합니다. WoW-wo-val은 609개의 로봇 조작 데이터 세트를 기반으로 하며, 인식, 계획, 예측, 일반화 및 실행을 포함한 5가지 핵심 능력을 평가합니다. 우리는 모델의 생성 능력을 평가하기 위한 22개의 지표를 포함한 종합적인 평가 프로토콜을 제안합니다. 이 프로토콜은 전체 점수와 인간의 선호도 간에 높은 피어슨 상관 관계(>0.93)를 달성하여 인간 튜링 테스트를 위한 신뢰할 수 있는 기반을 제공합니다. WoW-wo-val에서 모델은 장기 계획에서 평균 17.27점, 물리적 일관성에서 최고 68.02점을 기록하며, 이는 제한적인 시공간적 일관성과 물리적 추론 능력을 나타냅니다. 역동 모델 튜링 테스트에서, 우리는 먼저 역동 모델을 사용하여 비디오 기반 모델의 실제 세계에서의 실행 정확도를 평가했습니다. 그러나 대부분의 모델은 약 0%의 성공률을 보였지만, WoW는 40.74%의 성공률을 기록했습니다. 이러한 결과는 생성된 비디오와 실제 세계 간의 상당한 격차를 보여주며, 에이전트 기반 인공지능 분야에서 세계 모델의 벤치마킹의 시급성과 필요성을 강조합니다.
As world models gain momentum in Embodied AI, an increasing number of works explore using video foundation models as predictive world models for downstream embodied tasks like 3D prediction or interactive generation. However, before exploring these downstream tasks, video foundation models still have two critical questions unanswered: (1) whether their generative generalization is sufficient to maintain perceptual fidelity in the eyes of human observers, and (2) whether they are robust enough to serve as a universal prior for real-world embodied agents. To provide a standardized framework for answering these questions, we introduce the Embodied Turing Test benchmark: WoW-World-Eval (Wow,wo,val). Building upon 609 robot manipulation data, Wow-wo-val examines five core abilities, including perception, planning, prediction, generalization, and execution. We propose a comprehensive evaluation protocol with 22 metrics to assess the models' generation ability, which achieves a high Pearson Correlation between the overall score and human preference (>0.93) and establishes a reliable foundation for the Human Turing Test. On Wow-wo-val, models achieve only 17.27 on long-horizon planning and at best 68.02 on physical consistency, indicating limited spatiotemporal consistency and physical reasoning. For the Inverse Dynamic Model Turing Test, we first use an IDM to evaluate the video foundation models' execution accuracy in the real world. However, most models collapse to $\approx$ 0% success, while WoW maintains a 40.74% success rate. These findings point to a noticeable gap between the generated videos and the real world, highlighting the urgency and necessity of benchmarking World Model in Embodied AI.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.