VLA Foundry: 비전-언어-액션 모델 학습을 위한 통합 프레임워크
VLA Foundry: A Unified Framework for Training Vision-Language-Action Models
본 논문에서는 LLM, VLM 및 VLA 학습을 단일 코드베이스로 통합하는 오픈 소스 프레임워크인 VLA Foundry를 소개합니다. 기존의 대부분의 오픈 소스 VLA 연구는 액션 학습 단계에 특화되어 있으며, 호환되지 않는 사전 학습 파이프라인을 연결하는 방식으로 진행됩니다. VLA Foundry는 언어 사전 학습부터 액션-전문 미세 조정까지, 전체 과정을 제어할 수 있는 공유 학습 스택을 제공합니다. VLA Foundry는 처음부터 학습하는 방식과 Hugging Face에서 제공하는 사전 학습된 모델을 사용하는 방식을 모두 지원합니다. 본 프레임워크의 유용성을 입증하기 위해, LLM->VLM->VLA 파이프라인을 통해 처음부터 학습한 모델과 사전 학습된 Qwen3-VL 모델을 기반으로 구축한 두 가지 유형의 모델을 학습하고 공개합니다. 두 모델 모두 오픈 데이터 및 오픈 소스 시뮬레이터인 LBM Eval에서 폐쇄 루프 정책 성능을 평가했습니다. 또한, 시뮬레이터 및 STEP 분석 도구의 사용성을 개선하여 일반 사용자가 더 쉽게 사용할 수 있도록 기여했습니다. 표준 평가 설정에서, 처음부터 학습한 완전한 오픈 소스 모델은 기존의 비공개 연구 결과와 동등한 성능을 보였으며, Qwen3-VL 모델을 기반으로 구축한 모델은 기존 모델보다 훨씬 뛰어난 다중 작업 테이블 조작 정책을 보여주었습니다. VLA Foundry 코드베이스는 https://github.com/TRI-ML/vla_foundry 에서 확인할 수 있으며, 모든 다중 작업 모델 가중치는 https://huggingface.co/collections/TRI-ML/vla-foundry 에서 공개됩니다. 추가적인 품질 영상은 프로젝트 웹사이트 https://tri-ml.github.io/vla_foundry 에서 확인할 수 있습니다.
We present VLA Foundry, an open-source framework that unifies LLM, VLM, and VLA training in a single codebase. Most open-source VLA efforts specialize on the action training stage, often stitching together incompatible pretraining pipelines. VLA Foundry instead provides a shared training stack with end-to-end control, from language pretraining to action-expert fine-tuning. VLA Foundry supports both from-scratch training and pretrained backbones from Hugging Face. To demonstrate the utility of our framework, we train and release two types of models: the first trained fully from scratch through our LLM-->VLM-->VLA pipeline and the second built on the pretrained Qwen3-VL backbone. We evaluate closed-loop policy performance of both models on LBM Eval, an open-data, open-source simulator. We also contribute usability improvements to the simulator and the STEP analysis tools for easier public use. In the nominal evaluation setting, our fully-open from-scratch model is on par with our prior closed-source work and substituting in the Qwen3-VL backbone leads to a strong multi-task table top manipulation policy outperforming our baseline by a wide margin. The VLA Foundry codebase is available at https://github.com/TRI-ML/vla_foundry and all multi-task model weights are released on https://huggingface.co/collections/TRI-ML/vla-foundry. Additional qualitative videos are available on the project website https://tri-ml.github.io/vla_foundry.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.