RoboCurate: 로봇 학습을 위한 동작 검증 신경 궤적을 통한 다양성 활용
RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning
비디오 생성 모델을 통해 생성된 합성 데이터는 확장 가능한 파이프라인으로서 로봇 학습에 유망한 가능성을 보여주었지만, 불완전하게 생성된 비디오로 인해 종종 일관성 없는 동작 품질 문제를 겪는다. 최근 비디오 품질을 검증하기 위해 비전-언어 모델(VLM)이 활용되고 있으나, 물리적으로 정확한 비디오를 판별하는 데 한계가 있으며 생성된 동작 자체를 직접 평가할 수도 없다는 단점이 있다. 이 문제를 해결하기 위해, 우리는 주석 처리된 동작의 품질을 시뮬레이션 리플레이와 비교하여 평가하고 필터링하는 새로운 합성 로봇 데이터 생성 프레임워크인 RoboCurate를 제안한다. 구체적으로, RoboCurate는 예측된 동작을 시뮬레이터에서 재생하고, 시뮬레이터 롤아웃과 생성된 비디오 간의 모션 일관성을 측정하여 동작 품질을 평가한다. 또한, 우리는 이미지-대-이미지 편집을 통해 기존 데이터셋을 뛰어넘는 관측 다양성을 확보하고, 동작을 보존하는 비디오-대-비디오 변환을 적용하여 외관을 추가로 증강한다. 실험 결과, RoboCurate로 생성된 데이터를 사용했을 때 실제 데이터만 사용한 경우에 비해 성공률이 상대적으로 크게 향상되는 것을 확인했으며, GR-1 Tabletop(데모 300개)에서 +70.1%, 사전 학습 설정의 DexMimicGen에서 +16.1%, 도전적인 실제 환경의 ALLEX 휴머노이드 정밀 조작 설정에서 +179.9%의 성능 향상을 달성했다.
Synthetic data generated by video generative models has shown promise for robot learning as a scalable pipeline, but it often suffers from inconsistent action quality due to imperfectly generated videos. Recently, vision-language models (VLMs) have been leveraged to validate video quality, but they have limitations in distinguishing physically accurate videos and, even then, cannot directly evaluate the generated actions themselves. To tackle this issue, we introduce RoboCurate, a novel synthetic robot data generation framework that evaluates and filters the quality of annotated actions by comparing them with simulation replay. Specifically, RoboCurate replays the predicted actions in a simulator and assesses action quality by measuring the consistency of motion between the simulator rollout and the generated video. In addition, we unlock observation diversity beyond the available dataset via image-to-image editing and apply action-preserving video-to-video transfer to further augment appearance. We observe RoboCurate's generated data yield substantial relative improvements in success rates compared to using real data only, achieving +70.1% on GR-1 Tabletop (300 demos), +16.1% on DexMimicGen in the pre-training setup, and +179.9% in the challenging real-world ALLEX humanoid dexterous manipulation setting.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.