2601.03782v1 Jan 07, 2026 cs.RO

PointWorld: 실제 환경에서의 로봇 조작을 위한 3차원 세계 모델의 확장

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

Ming-Yu Liu
Ming-Yu Liu
Citations: 169
h-index: 7
Kaichun Mo
Kaichun Mo
Citations: 659
h-index: 7
Wenlong Huang
Wenlong Huang
Citations: 321
h-index: 4
Yu-Wei Chao
Yu-Wei Chao
Citations: 60
h-index: 3
A. Mousavian
A. Mousavian
Citations: 7,639
h-index: 35
Dieter Fox
Dieter Fox
Citations: 836
h-index: 8
Fei-Fei Li
Fei-Fei Li
Citations: 28
h-index: 3

인간은 시선과 신체 움직임을 통해 3차원 세계가 어떻게 반응할지를 예측하는 능력을 가지고 있으며, 이는 로봇 조작에도 매우 중요한 능력입니다. 본 논문에서는 PointWorld를 소개합니다. PointWorld는 사전 학습된 대규모 3차원 세계 모델로, 상태와 행동을 공유된 3차원 공간에서 3차원 점 흐름으로 통합합니다. PointWorld는 하나 또는 몇 개의 RGB-D 이미지와 로봇의 저수준 액션 명령 시퀀스를 입력으로 받아, 주어진 액션에 대한 3차원 픽셀 단위의 변위를 예측합니다. 본 연구에서는 액션을 3차원 점 흐름으로 표현하여 로봇의 구체적인 구조에 종속되지 않고, 다양한 로봇 플랫폼에 걸쳐 학습을 원활하게 통합할 수 있도록 설계했습니다. PointWorld의 3차원 세계 모델을 학습하기 위해, 실제 로봇 조작과 시뮬레이션 환경에서의 대규모 데이터셋을 구축했습니다. 이 데이터셋은 최근의 3차원 비전 및 시뮬레이션 환경 기술의 발전에 힘입어, 단일 팔 Franka 로봇과 양손을 사용하는 휴머노이드 로봇을 대상으로 총 2백만 개의 경로와 500시간의 데이터를 포함합니다. 본 연구에서는 다양한 백본 모델, 액션 표현 방식, 학습 목표, 부분 관찰 환경, 데이터 혼합, 도메인 전이, 그리고 확장성에 대한 대규모 실험을 통해 대규모 3차원 세계 모델링을 위한 설계 원칙을 도출했습니다. PointWorld는 실시간(0.1초) 추론 속도를 제공하여, 모델 예측 제어(MPC) 프레임워크에 효율적으로 통합될 수 있습니다. 단일 사전 학습된 모델을 통해, 실제 환경에서 Franka 로봇이 별도의 데모나 추가 훈련 없이도, 강체 밀기, 변형 가능하고 복잡한 물체 조작, 그리고 도구 사용과 같은 작업을 수행할 수 있음을 보여줍니다. 프로젝트 웹사이트: https://point-world.github.io/.

Original Abstract

Humans anticipate, from a glance and a contemplated action of their bodies, how the 3D world will respond, a capability that is equally vital for robotic manipulation. We introduce PointWorld, a large pre-trained 3D world model that unifies state and action in a shared 3D space as 3D point flows: given one or few RGB-D images and a sequence of low-level robot action commands, PointWorld forecasts per-pixel displacements in 3D that respond to the given actions. By representing actions as 3D point flows instead of embodiment-specific action spaces (e.g., joint positions), this formulation directly conditions on physical geometries of robots while seamlessly integrating learning across embodiments. To train our 3D world model, we curate a large-scale dataset spanning real and simulated robotic manipulation in open-world environments, enabled by recent advances in 3D vision and simulated environments, totaling about 2M trajectories and 500 hours across a single-arm Franka and a bimanual humanoid. Through rigorous, large-scale empirical studies of backbones, action representations, learning objectives, partial observability, data mixtures, domain transfers, and scaling, we distill design principles for large-scale 3D world modeling. With a real-time (0.1s) inference speed, PointWorld can be efficiently integrated in the model-predictive control (MPC) framework for manipulation. We demonstrate that a single pre-trained checkpoint enables a real-world Franka robot to perform rigid-body pushing, deformable and articulated object manipulation, and tool use, without requiring any demonstrations or post-training and all from a single image captured in-the-wild. Project website at https://point-world.github.io/.

8 Citations
0 Influential
17.5 Altmetric
95.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!