교활한 조작에서의 시뮬레이션-실제 일반화: 비전-언어-행동 모델을 이용한 실증 연구
Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models
교활한 조작을 위한 일반적인 제어 정책 학습은 일반적으로 대규모 데이터 세트에 의존합니다. 실제 데이터 수집의 높은 비용을 고려할 때, 실용적인 대안은 시뮬레이션을 통해 합성 데이터를 생성하는 것입니다. 그러나 생성된 합성 데이터는 종종 실제 세계 분포와 상당한 격차를 보입니다. 많은 이전 연구에서 시뮬레이션-실제 격차를 해소하기 위한 알고리즘을 제안했지만, 특히 비전-언어-행동(VLA) 모델과 같은 일반적인 정책에 대한 이러한 방법의 성능을 실제 조작 작업에 기반한 체계적인 연구는 부족합니다. 본 연구에서는 다단계 도메인 랜덤화, 사실적인 렌더링, 물리적으로 정확한 모델링 및 강화 학습 업데이트의 네 가지 측면에서 시뮬레이션-실제 일반화의 주요 요인을 실증적으로 조사합니다. 본 연구를 지원하기 위해, 조작 작업의 실제 성능을 정량화하기 위한 포괄적인 평가 프로토콜을 설계했습니다. 이 프로토콜은 배경, 조명, 주의 분산 요소, 객체 유형 및 공간적 특징의 주요 변형을 고려합니다. 1만 건 이상의 실제 실험을 통해, 시뮬레이션-실제 전송에 대한 중요한 통찰력을 얻었습니다. 향후 연구를 돕고 발전시키기 위해, 로봇 플랫폼과 평가 프로토콜을 공개하여 독립적인 검증을 용이하게 하고, 교활한 조작 정책을 위한 현실적이고 표준화된 벤치마크를 구축합니다.
Learning a generalist control policy for dexterous manipulation typically relies on large-scale datasets. Given the high cost of real-world data collection, a practical alternative is to generate synthetic data through simulation. However, the resulting synthetic data often exhibits a significant gap from real-world distributions. While many prior studies have proposed algorithms to bridge the Sim-to-Real discrepancy, there remains a lack of principled research that grounds these methods in real-world manipulation tasks, particularly their performance on generalist policies such as Vision-Language-Action (VLA) models. In this study, we empirically examine the primary determinants of Sim-to-Real generalization across four dimensions: multi-level domain randomization, photorealistic rendering, physics-realistic modeling, and reinforcement learning updates. To support this study, we design a comprehensive evaluation protocol to quantify the real-world performance of manipulation tasks. The protocol accounts for key variations in background, lighting, distractors, object types, and spatial features. Through experiments involving over 10k real-world trials, we derive critical insights into Sim-to-Real transfer. To inform and advance future studies, we release both the robotic platforms and the evaluation protocol for public access to facilitate independent verification, thereby establishing a realistic and standardized benchmark for dexterous manipulation policies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.