2604.05014v1 Apr 06, 2026 cs.RO

StarVLA: 비전-언어-액션 모델 개발을 위한 레고 블록과 같은 코드 기반

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

S. Community
S. Community
Citations: 0
h-index: 0

일반적인 능력을 갖춘 로봇 에이전트를 구축하기 위해서는 시각 인식, 언어 이해, 행동 제어 능력이 필수적이며, 이러한 핵심 기능은 다중 모드 기반 모델을 활용하는 비전-언어-액션 (VLA) 접근 방식을 통해 구현됩니다. 최근 비전-언어 모델 및 세계 모델 분야에서 상당한 발전이 있었음에도 불구하고, VLA 방법론은 호환되지 않는 아키텍처, 코드베이스, 평가 프로토콜로 인해 여전히 단편화되어 있으며, 이는 체계적인 비교 및 재현성을 저해합니다. 본 연구에서는 VLA 연구를 위한 오픈 소스 코드 기반인 StarVLA를 소개합니다. StarVLA는 이러한 문제점을 세 가지 측면에서 해결합니다. 첫째, Qwen-VL과 같은 VLM 기반 모델과 Cosmos와 같은 세계 모델 기반 모델을 모두 지원하는 모듈식 백본-액션 헤드 아키텍처를 제공하며, 백본과 액션 헤드를 독립적으로 교체할 수 있는 공통 추상화 계층을 사용합니다. 둘째, 교차-체화 학습 및 다중 모드 공동 학습을 포함한 재사용 가능한 학습 전략을 제공하며, 이는 지원되는 모든 패러다임에 일관되게 적용됩니다. 셋째, LIBERO, SimplerEnv, RoboTwin~2.0, RoboCasa-GR1, BEHAVIOR-1K와 같은 주요 벤치마크를 통합하여 시뮬레이션 및 실제 로봇 배포를 모두 지원하는 통합 평가 인터페이스를 제공합니다. StarVLA는 최소한의 데이터 전처리만으로도 VLM 및 세계 모델 기반 백본 모두에서 여러 벤치마크에서 기존 방법과 동등하거나 뛰어넘는 간단하고 완전히 재현 가능한 단일 벤치마크 학습 레시피를 제공합니다. 현재까지 공개된 가장 포괄적인 VLA 프레임워크 중 하나인 StarVLA는 기존 방법의 재현성과 새로운 방법의 프로토타이핑을 용이하게 할 것으로 기대됩니다. StarVLA는 지속적으로 유지 관리 및 확장되고 있으며, 프로젝트의 발전에 따라 본 보고서도 업데이트될 예정입니다. 코드 및 문서는 https://github.com/starVLA/starVLA 에서 확인할 수 있습니다.

Original Abstract

Building generalist embodied agents requires integrating perception, language understanding, and action, which are core capabilities addressed by Vision-Language-Action (VLA) approaches based on multimodal foundation models, including recent advances in vision-language models and world models. Despite rapid progress, VLA methods remain fragmented across incompatible architectures, codebases, and evaluation protocols, hindering principled comparison and reproducibility. We present StarVLA, an open-source codebase for VLA research. StarVLA addresses these challenges in three aspects. First, it provides a modular backbone--action-head architecture that supports both VLM backbones (e.g., Qwen-VL) and world-model backbones (e.g., Cosmos) alongside representative action-decoding paradigms, all under a shared abstraction in which backbone and action head can each be swapped independently. Second, it provides reusable training strategies, including cross-embodiment learning and multimodal co-training, that apply consistently across supported paradigms. Third, it integrates major benchmarks, including LIBERO, SimplerEnv, RoboTwin~2.0, RoboCasa-GR1, and BEHAVIOR-1K, through a unified evaluation interface that supports both simulation and real-robot deployment. StarVLA also ships simple, fully reproducible single-benchmark training recipes that, despite minimal data engineering, already match or surpass prior methods on multiple benchmarks with both VLM and world-model backbones. To our best knowledge, StarVLA is one of the most comprehensive open-source VLA frameworks available, and we expect it to lower the barrier for reproducing existing methods and prototyping new ones. StarVLA is being actively maintained and expanded; we will update this report as the project evolves. The code and documentation are available at https://github.com/starVLA/starVLA.

6 Citations
1 Influential
56.749368523692 Altmetric
291.7 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!