현실 간의 격차 해소: 정교한 힘 기반 잡기 및 조작을 위한 제로샷 시뮬레이션-실세계 적용
Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation
다섯 개의 손가락을 가진 인간과 유사한 정교한 손은 인간 수준의 조작 능력을 제공하지만, 복잡한 물리적 상호작용과 불완전한 작동으로 인해 실제 하드웨어에 직접 적용 가능한 제어 정책을 훈련하는 것은 여전히 어렵습니다. 본 연구에서는 밀집된 촉각 피드백과 관절 토크 센싱을 활용하여 물리적 상호작용을 명시적으로 제어하는 실용적인 시뮬레이션-실세계 강화 학습(RL) 프레임워크를 통해 이러한 격차를 해소합니다. 효과적인 시뮬레이션-실세계 전이를 가능하게 하기 위해, (i) 병렬 순방향 운동학을 통해 밀집된 가상 촉각 단위와 물체 사이의 거리를 계산하는 계산적으로 빠른 촉각 시뮬레이션을 도입하여 RL에 필요한 고속, 고해상도 촉각 신호를 제공하고, (ii) 모터 전류를 관절 토크로 매핑하여 정교한 손에 토크 센서가 필요 없도록 하는 전류-토크 보정 방법을 제시하고, (iii) 백래시, 토크-속도 포화와 같은 비이상적인 효과를 랜덤화하여 액추에이터 동역학 모델링을 통해 작동 간의 격차를 해소합니다. 시뮬레이션 환경에서 완전히 훈련된 비대칭 액터-크리틱 PPO 파이프라인을 사용하여, 훈련된 정책을 직접적으로 다섯 개의 손가락을 가진 로봇에 적용했습니다. 결과적으로, 다음과 같은 두 가지 필수적인 기술을 구현했습니다. (1) 명령 기반, 제어 가능한 잡힘 힘 추적, (2) 로봇 손 안에서 물체의 재배향. 이러한 기술들은 로봇에 대한 미세 조정 없이도 안정적으로 수행되었습니다. 촉각 및 토크를 관측 공간에 통합하고 효과적인 센싱/액추에이터 모델링을 통해, 본 시스템은 신뢰할 수 있는 정교한 조작을 달성하기 위한 실용적인 솔루션을 제공합니다. 현재까지 알려진 바에 따르면, 본 연구는 시뮬레이션 환경에서 완전히 훈련되었고 실제 하드웨어에 제로샷으로 전송된 다중 손가락 정교한 손에서의 제어 가능한 잡기 기술을 처음으로 시연한 것입니다.
Human-like dexterous hands with multiple fingers offer human-level manipulation capabilities, but training control policies that can directly deploy on real hardware remains difficult due to contact-rich physics and imperfect actuation. We close this gap with a practical sim-to-real reinforcement learning (RL) framework that utilizes dense tactile feedback combined with joint torque sensing to explicitly regulate physical interactions. To enable effective sim-to-real transfer, we introduce (i) a computationally fast tactile simulation that computes distances between dense virtual tactile units and the object via parallel forward kinematics, providing high-rate, high-resolution touch signals needed by RL; (ii) a current-to-torque calibration that eliminates the need for torque sensors on dexterous hands by mapping motor current to joint torque; and (iii) actuator dynamics modeling to bridge the actuation gaps with randomization of non-ideal effects such as backlash, torque-speed saturation. Using an asymmetric actor-critic PPO pipeline trained entirely in simulation, our policies deploy directly to a five-finger hand. The resulting policies demonstrated two essential skills: (1) command-based, controllable grasp force tracking, and (2) reorientation of objects in the hand, both of which were robustly executed without fine-tuning on the robot. By combining tactile and torque in the observation space with effective sensing/actuation modeling, our system provides a practical solution to achieve reliable dexterous manipulation. To our knowledge, this is the first demonstration of controllable grasping on a multi-finger dexterous hand trained entirely in simulation and transferred zero-shot on real hardware.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.