보는 것을 시뮬레이션으로: 디지털 트윈을 활용한 고품질 시뮬레이션 기반 로봇 학습 및 평가를 위한 생성적 접근
From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation
실제 환경에서 견고한 로봇 정책을 학습하기 위해서는 다양한 데이터 증강이 필요하지만, 실제 데이터를 수집하는 것은 물리적 자산 확보 및 환경 재구성의 필요성으로 인해 비용이 많이 듭니다. 따라서 실제 환경을 시뮬레이션으로 변환하는 것은 효율적인 학습 및 평가를 위한 실용적인 방법이 되었습니다. 본 논문에서는 실제 환경의 파노라마 이미지를 고품질 시뮬레이션 장면으로 변환하는 생성적 프레임워크를 제시하며, 의미론적 및 기하학적 편집을 통해 다양한 유사 장면을 생성합니다. 생성된 장면은 고품질 물리 엔진 및 현실적인 자산과 결합되어 상호 작용적인 조작 작업을 지원합니다. 또한, 다중 방을 연결하여 복잡한 레이아웃에서 장거리 탐색을 위한 일관성 있는 대규모 환경을 구축합니다. 실험 결과는 시뮬레이션 결과와 실제 결과 간의 높은 상관관계를 보여주며, 이는 본 플랫폼의 정확성을 검증합니다. 또한, 데이터 생성 규모를 대폭 확대하면 아직 보지 못한 장면 및 객체 변형에 대한 일반화 성능이 크게 향상됨을 보여주며, 이는 디지털 트윈이 일반화된 로봇 학습 및 평가에 효과적임을 입증합니다.
Learning robust robot policies in real-world environments requires diverse data augmentation, yet scaling real-world data collection is costly due to the need for acquiring physical assets and reconfiguring environments. Therefore, augmenting real-world scenes into simulation has become a practical augmentation for efficient learning and evaluation. We present a generative framework that establishes a generative real-to-sim mapping from real-world panoramas to high-fidelity simulation scenes, and further synthesize diverse cousin scenes via semantic and geometric editing. Combined with high-quality physics engines and realistic assets, the generated scenes support interactive manipulation tasks. Additionally, we incorporate multi-room stitching to construct consistent large-scale environments for long-horizon navigation across complex layouts. Experiments demonstrate a strong sim-to-real correlation validating our platform's fidelity, and show that extensively scaling up data generation leads to significantly better generalization to unseen scene and object variations, demonstrating the effectiveness of Digital Cousins for generalizable robot learning and evaluation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.