Open-H-Embodiment: 의료 로봇 분야의 기반 모델 개발을 위한 대규모 데이터셋
Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics
자율 의료 로봇은 환자 치료 결과 개선, 의료진 업무 부담 감소, 의료 접근성 향상, 그리고 인간의 능력을 뛰어넘는 정밀성 확보에 기여할 수 있는 잠재력을 가지고 있습니다. 그러나 자율 의료 로봇 분야는 근본적인 데이터 문제에 직면해 왔습니다. 기존의 의료 로봇 데이터셋은 규모가 작고, 특정 로봇 플랫폼에 국한되어 있으며, 공개적으로 공유되는 경우가 드물어, 이 분야의 발전을 위한 기반 모델 개발을 제한하고 있습니다. 본 논문에서는 Open-H-Embodiment를 소개합니다. 이는 현재까지 공개된 의료 로봇 비디오 데이터셋 중 가장 큰 규모이며, 동기화된 로봇 움직임 정보를 포함하고 있습니다. 이 데이터셋은 49개 이상의 기관과 CMR Versius, Intuitive Surgical의 da Vinci, da Vinci Research Kit (dVRK), Rob Surgical BiTrack, Virtual Incision의 MIRA, Moon Surgical Maestro, 그리고 다양한 맞춤형 시스템을 포함한 여러 로봇 플랫폼을 대상으로 수집되었으며, 수술 조작, 로봇 초음파, 그리고 내시경 검사 절차를 포함합니다. 우리는 이 데이터셋을 활용하여 개발된 두 가지 기반 모델을 통해 연구 성과를 보여줍니다. GR00T-H는 의료 로봇 분야 최초의 공개된 비전-언어-액션 모델로서, 구조화된 봉합 벤치마크에서 전체 작업을 완수하는 유일한 모델이며 (다른 모든 모델의 0% 대비 25%의 성공률), 29단계의 시험관 내 봉합 시퀀스에서 평균 64%의 성공률을 달성했습니다. 또한, Cosmos-H-Surgical-Simulator는 단일 체크포인트에서 다양한 로봇 플랫폼(총 9개)을 지원하는 최초의 액션 기반 월드 모델로서, 의료 분야의 정책 평가 및 합성 데이터 생성에 활용될 수 있습니다. 이러한 결과는 공개적인 대규모 의료 로봇 데이터 수집이 연구 커뮤니티를 위한 중요한 기반 시설 역할을 할 수 있으며, 로봇 학습, 월드 모델링 및 기타 분야의 발전을 촉진할 수 있음을 시사합니다.
Autonomous medical robots hold promise to improve patient outcomes, reduce provider workload, democratize access to care, and enable superhuman precision. However, autonomous medical robotics has been limited by a fundamental data problem: existing medical robotic datasets are small, single-embodiment, and rarely shared openly, restricting the development of foundation models that the field needs to advance. We introduce Open-H-Embodiment, the largest open dataset of medical robotic video with synchronized kinematics to date, spanning more than 49 institutions and multiple robotic platforms including the CMR Versius, Intuitive Surgical's da Vinci, da Vinci Research Kit (dVRK), Rob Surgical BiTrack, Virtual Incision's MIRA, Moon Surgical Maestro, and a variety of custom systems, spanning surgical manipulation, robotic ultrasound, and endoscopy procedures. We demonstrate the research enabled by this dataset through two foundation models. GR00T-H is the first open foundation vision-language-action model for medical robotics, which is the only evaluated model to achieve full end-to-end task completion on a structured suturing benchmark (25% of trials vs. 0% for all others) and achieves 64% average success across a 29-step ex vivo suturing sequence. We also train Cosmos-H-Surgical-Simulator, the first action-conditioned world model to enable multi-embodiment surgical simulation from a single checkpoint, spanning nine robotic platforms and supporting in silico policy evaluation and synthetic data generation for the medical domain. These results suggest that open, large-scale medical robot data collection can serve as critical infrastructure for the research community, enabling advances in robot learning, world modeling, and beyond.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.