RoboGene: 다양성을 기반으로 한 에이전트 프레임워크를 활용한 VLA 사전 훈련 성능 향상 - 실제 환경 작업 생성
RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation
범용 로봇 조작 기술 개발은 다양한 실제 환경 상호작용 데이터의 부족으로 인해 어려움을 겪고 있습니다. 컴퓨터 비전 또는 자연어 처리 분야에서 웹 데이터를 수집하는 것과 달리, 로봇 데이터 수집은 상당한 물리적 비용이 발생하는 능동적인 과정입니다. 따라서 데이터 가치를 극대화하기 위한 자동화된 작업 큐레이션은 중요한 과제이지만 아직 충분히 연구되지 않았습니다. 기존의 수동 방식은 확장성이 떨어지고 일반적인 작업에 편향되어 있으며, 일반적으로 사용되는 기반 모델은 물리적으로 불가능한 명령을 생성하는 경향이 있습니다. 이러한 문제를 해결하기 위해, 당사는 단일 팔, 이중 팔 및 이동 로봇에 대한 다양한 물리적으로 타당한 조작 작업을 자동으로 생성하도록 설계된 에이전트 프레임워크인 RoboGene을 소개합니다. RoboGene은 세 가지 핵심 구성 요소로 구성됩니다. 첫째, 광범위한 작업 커버리지를 위한 다양성을 기반으로 한 샘플링, 둘째, 물리적 제약 조건을 적용하기 위한 자기 성찰 메커니즘, 셋째, 지속적인 개선을 위한 인간 참여 방식입니다. 우리는 광범위한 정량적 분석과 대규모 실제 환경 실험을 수행하여 18,000개의 경로 데이터 세트를 수집하고 작업의 품질, 타당성 및 다양성을 평가하기 위한 새로운 지표를 도입했습니다. 결과는 RoboGene이 최첨단 기반 모델(예: GPT-4o, Gemini 2.5 Pro)보다 훨씬 우수한 성능을 발휘한다는 것을 보여줍니다. 또한, 실제 환경 실험 결과, RoboGene을 사용하여 사전 훈련된 VLA 모델은 더 높은 성공률과 우수한 일반화 성능을 달성했으며, 이는 고품질 작업 생성의 중요성을 강조합니다. 당사의 프로젝트는 https://robogene-boost-vla.github.io 에서 확인할 수 있습니다.
The pursuit of general-purpose robotic manipulation is hindered by the scarcity of diverse, real-world interaction data. Unlike data collection from web in vision or language, robotic data collection is an active process incurring prohibitive physical costs. Consequently, automated task curation to maximize data value remains a critical yet under-explored challenge. Existing manual methods are unscalable and biased toward common tasks, while off-the-shelf foundation models often hallucinate physically infeasible instructions. To address this, we introduce RoboGene, an agentic framework designed to automate the generation of diverse, physically plausible manipulation tasks across single-arm, dual-arm, and mobile robots. RoboGene integrates three core components: diversity-driven sampling for broad task coverage, self-reflection mechanisms to enforce physical constraints, and human-in-the-loop refinement for continuous improvement. We conduct extensive quantitative analysis and large-scale real-world experiments, collecting datasets of 18k trajectories and introducing novel metrics to assess task quality, feasibility, and diversity. Results demonstrate that RoboGene significantly outperforms state-of-the-art foundation models (e.g., GPT-4o, Gemini 2.5 Pro). Furthermore, real-world experiments show that VLA models pre-trained with RoboGene achieve higher success rates and superior generalization, underscoring the importance of high-quality task generation. Our project is available at https://robogene-boost-vla.github.io.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.