ZEST: 휴머노이드 로봇 제어를 위한 제로샷 임베디드 스킬 전이
ZEST: Zero-shot Embodied Skill Transfer for Athletic Robot Control
민첩하고 접촉이 많은 동작을 수행하는 휴머노이드 로봇의 견고하고 인간과 유사한 전신 제어를 달성하는 것은 여전히 중요한 과제이며, 이는 각 기술마다 많은 엔지니어링 노력과 컨트롤러 튜닝이라는 취약한 과정을 필요로 합니다. 본 논문에서는 ZEST(Zero-shot Embodied Skill Transfer)라는 간소화된 모션 모방 프레임워크를 소개합니다. ZEST는 강화 학습을 통해 다양한 소스(고정밀 모션 캡처, 노이즈가 많은 단안 비디오, 물리 법칙에 제약받지 않는 애니메이션)로부터 정책을 학습하고, 이를 하드웨어에 즉시 적용합니다. ZEST는 접촉 정보, 참조 또는 관측 창, 상태 추정기, 그리고 광범위한 보상 형성을 사용하지 않고도 다양한 동작과 플랫폼에 걸쳐 일반화됩니다. ZEST의 학습 파이프라인은 어려운 동작 세그먼트에 집중하는 적응적 샘플링과, 모델 기반 보조 렌치를 사용하는 자동 커리큘럼을 결합하여, 동적이고 장기적인 움직임을 가능하게 합니다. 또한, 폐쇄 루프 액추에이터의 근사적인 분석적인 관성 값을 기반으로 조인트 레벨 게인을 선택하는 절차와 함께, 액추에이터의 정교화된 모델을 제공합니다. ZEST는 중간 수준의 도메인 랜덤화를 통해 시뮬레이션 환경에서 완전히 학습되었으며, 놀라운 일반화 능력을 보여줍니다. 보스턴 다이내믹스의 아틀라스 휴머노이드 로봇에서 ZEST는 모션 캡처 데이터를 사용하여 역동적이고 다중 접촉 동작(예: 기어 기어, 브레이크 댄스)을 학습합니다. 또한, ZEST는 비디오로부터 표현력이 풍부한 춤 동작과 장면 상호 작용 기술(예: 박스 오르기)을 아틀라스와 유니트리 G1 로봇에 직접 전송합니다. 더욱이, ZEST는 형태가 다른 스팟 쿼드루페드로 확장되어 애니메이션을 통해 연속적인 백플립과 같은 곡예 동작을 가능하게 합니다. 이러한 결과들은 다양한 데이터 소스와 로봇 플랫폼에 걸쳐 견고한 제로샷 배포를 가능하게 함을 보여주며, ZEST를 생물학적 움직임과 그 로봇 대응물 간의 확장 가능한 인터페이스로 확립합니다.
Achieving robust, human-like whole-body control on humanoid robots for agile, contact-rich behaviors remains a central challenge, demanding heavy per-skill engineering and a brittle process of tuning controllers. We introduce ZEST (Zero-shot Embodied Skill Transfer), a streamlined motion-imitation framework that trains policies via reinforcement learning from diverse sources -- high-fidelity motion capture, noisy monocular video, and non-physics-constrained animation -- and deploys them to hardware zero-shot. ZEST generalizes across behaviors and platforms while avoiding contact labels, reference or observation windows, state estimators, and extensive reward shaping. Its training pipeline combines adaptive sampling, which focuses training on difficult motion segments, and an automatic curriculum using a model-based assistive wrench, together enabling dynamic, long-horizon maneuvers. We further provide a procedure for selecting joint-level gains from approximate analytical armature values for closed-chain actuators, along with a refined model of actuators. Trained entirely in simulation with moderate domain randomization, ZEST demonstrates remarkable generality. On Boston Dynamics' Atlas humanoid, ZEST learns dynamic, multi-contact skills (e.g., army crawl, breakdancing) from motion capture. It transfers expressive dance and scene-interaction skills, such as box-climbing, directly from videos to Atlas and the Unitree G1. Furthermore, it extends across morphologies to the Spot quadruped, enabling acrobatics, such as a continuous backflip, through animation. Together, these results demonstrate robust zero-shot deployment across heterogeneous data sources and embodiments, establishing ZEST as a scalable interface between biological movements and their robotic counterparts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.