StarVLA: 비전-언어-액션 모델 개발을 위한 레고 블록과 같은 코드 기반
StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing
일반적인 능력을 갖춘 로봇 에이전트를 구축하기 위해서는 시각 인식, 언어 이해, 행동 제어 능력이 필수적이며, 이러한 핵심 기능은 다중 모드 기반 모델을 활용하는 비전-언어-액션 (VLA) 접근 방식을 통해 구현됩니다. 최근 비전-언어 모델 및 세계 모델 분야에서 상당한 발전이 있었음에도 불구하고, VLA 방법론은 호환되지 않는 아키텍처, 코드베이스, 평가 프로토콜로 인해 여전히 단편화되어 있으며, 이는 체계적인 비교 및 재현성을 저해합니다. 본 연구에서는 VLA 연구를 위한 오픈 소스 코드 기반인 StarVLA를 소개합니다. StarVLA는 이러한 문제점을 세 가지 측면에서 해결합니다. 첫째, Qwen-VL과 같은 VLM 기반 모델과 Cosmos와 같은 세계 모델 기반 모델을 모두 지원하는 모듈식 백본-액션 헤드 아키텍처를 제공하며, 백본과 액션 헤드를 독립적으로 교체할 수 있는 공통 추상화 계층을 사용합니다. 둘째, 교차-체화 학습 및 다중 모드 공동 학습을 포함한 재사용 가능한 학습 전략을 제공하며, 이는 지원되는 모든 패러다임에 일관되게 적용됩니다. 셋째, LIBERO, SimplerEnv, RoboTwin~2.0, RoboCasa-GR1, BEHAVIOR-1K와 같은 주요 벤치마크를 통합하여 시뮬레이션 및 실제 로봇 배포를 모두 지원하는 통합 평가 인터페이스를 제공합니다. StarVLA는 최소한의 데이터 전처리만으로도 VLM 및 세계 모델 기반 백본 모두에서 여러 벤치마크에서 기존 방법과 동등하거나 뛰어넘는 간단하고 완전히 재현 가능한 단일 벤치마크 학습 레시피를 제공합니다. 현재까지 공개된 가장 포괄적인 VLA 프레임워크 중 하나인 StarVLA는 기존 방법의 재현성과 새로운 방법의 프로토타이핑을 용이하게 할 것으로 기대됩니다. StarVLA는 지속적으로 유지 관리 및 확장되고 있으며, 프로젝트의 발전에 따라 본 보고서도 업데이트될 예정입니다. 코드 및 문서는 https://github.com/starVLA/starVLA 에서 확인할 수 있습니다.
Building generalist embodied agents requires integrating perception, language understanding, and action, which are core capabilities addressed by Vision-Language-Action (VLA) approaches based on multimodal foundation models, including recent advances in vision-language models and world models. Despite rapid progress, VLA methods remain fragmented across incompatible architectures, codebases, and evaluation protocols, hindering principled comparison and reproducibility. We present StarVLA, an open-source codebase for VLA research. StarVLA addresses these challenges in three aspects. First, it provides a modular backbone--action-head architecture that supports both VLM backbones (e.g., Qwen-VL) and world-model backbones (e.g., Cosmos) alongside representative action-decoding paradigms, all under a shared abstraction in which backbone and action head can each be swapped independently. Second, it provides reusable training strategies, including cross-embodiment learning and multimodal co-training, that apply consistently across supported paradigms. Third, it integrates major benchmarks, including LIBERO, SimplerEnv, RoboTwin~2.0, RoboCasa-GR1, and BEHAVIOR-1K, through a unified evaluation interface that supports both simulation and real-robot deployment. StarVLA also ships simple, fully reproducible single-benchmark training recipes that, despite minimal data engineering, already match or surpass prior methods on multiple benchmarks with both VLM and world-model backbones. To our best knowledge, StarVLA is one of the most comprehensive open-source VLA frameworks available, and we expect it to lower the barrier for reproducing existing methods and prototyping new ones. StarVLA is being actively maintained and expanded; we will update this report as the project evolves. The code and documentation are available at https://github.com/starVLA/starVLA.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.