비디오 사전 지식을 활용한 비동기 노이즈 제거를 통한 통합 4차원 세계 동작 모델링
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising
본 연구에서는 실시간 로봇 동작 실행과 고품질 4차원 세계 합성(비디오 + 3D 재구성)을 단일 프레임워크로 통합하는 통합 4차원 세계 모델인 X-WAM을 제안합니다. 기존의 통합 세계 모델(예: UWM)은 2차원 픽셀 공간만 모델링하고 동작 효율성과 세계 모델링 품질의 균형을 맞추는 데 한계가 있었습니다. X-WAM은 사전 학습된 비디오 확산 모델의 강력한 시각적 사전 지식을 활용하여, 다중 뷰 RGB-D 비디오를 예측하여 미래 세계를 상상하고, 경량화된 구조적 적응을 통해 효율적으로 공간 정보를 획득합니다. 구체적으로, 사전 학습된 확산 트랜스포머의 마지막 몇 블록을 전용 깊이 예측 분기로 복제하여 미래 공간 정보를 재구성합니다. 또한, 생성 품질과 동작 디코딩 효율성을 동시에 최적화하기 위해 비동기 노이즈 샘플링(ANS)을 제안합니다. ANS는 추론 과정에서 특수한 비동기 노이즈 제거 스케줄을 적용하여, 더 적은 단계로 빠르게 동작을 디코딩하여 효율적인 실시간 실행을 가능하게 하고, 동시에 전체 단계를 활용하여 고품질 비디오를 생성합니다. ANS는 훈련 과정에서 시간 단계를 완전히 분리하지 않고, 대신 시간 단계의 공동 분포에서 샘플링하여 추론 분포와 일치시킵니다. 5,800시간 이상의 로봇 데이터로 사전 학습된 X-WAM은 RoboCasa 및 RoboTwin 2.0 벤치마크에서 각각 79.2% 및 90.7%의 평균 성공률을 달성했으며, 시각적 및 기하학적 지표 모두에서 기존 방법보다 뛰어난 고품질 4차원 재구성 및 생성을 제공합니다.
We propose X-WAM, a Unified 4D World Model that unifies real-time robotic action execution and high-fidelity 4D world synthesis (video + 3D reconstruction) in a single framework, addressing the critical limitations of prior unified world models (e.g., UWM) that only model 2D pixel-space and fail to balance action efficiency and world modeling quality. To leverage the strong visual priors of pretrained video diffusion models, X-WAM imagines the future world by predicting multi-view RGB-D videos, and obtains spatial information efficiently through a lightweight structural adaptation: replicating the final few blocks of the pretrained Diffusion Transformer into a dedicated depth prediction branch for the reconstruction of future spatial information. Moreover, we propose Asynchronous Noise Sampling (ANS) to jointly optimize generation quality and action decoding efficiency. ANS applies a specialized asynchronous denoising schedule during inference, which rapidly decodes actions with fewer steps to enable efficient real-time execution, while dedicating the full sequence of steps to generate high-fidelity video. Rather than entirely decoupling the timesteps during training, ANS samples from their joint distribution to align with the inference distribution. Pretrained on over 5,800 hours of robotic data, X-WAM achieves 79.2% and 90.7% average success rate on RoboCasa and RoboTwin 2.0 benchmarks, while producing high-fidelity 4D reconstruction and generation surpassing existing methods in both visual and geometric metrics.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.