2602.18532v1 Feb 20, 2026 cs.CV

VLANeXt: 강력한 VLA 모델 구축을 위한 레시피

VLANeXt: Recipes for Building Strong VLA Models

Xiao-Ming Wu
Xiao-Ming Wu
Citations: 393
h-index: 10
Bin Fan
Bin Fan
Citations: 11
h-index: 2
Kang Liao
Kang Liao
Citations: 113
h-index: 4
Jian-Jian Jiang
Jian-Jian Jiang
Citations: 146
h-index: 5
Runze Yang
Runze Yang
Citations: 38
h-index: 3
Yihang Luo
Yihang Luo
Citations: 197
h-index: 5
Zhonghua Wu
Zhonghua Wu
Citations: 162
h-index: 6
Weihua Zheng
Weihua Zheng
Citations: 15
h-index: 2
Chen Change Loy
Chen Change Loy
Citations: 48
h-index: 3

대규모 파운데이션 모델의 부상에 따라 범용 정책 학습을 위해 강력한 시각 및 언어 이해 능력을 활용하는 시각-언어-행동 모델(VLA)이 등장했다. 그러나 현재의 VLA 생태계는 여전히 파편화되어 있고 탐색적 단계에 머물러 있다. 많은 연구 그룹이 독자적인 VLA 모델을 제안했지만, 학습 프로토콜과 평가 설정의 불일치로 인해 어떤 설계 선택이 진정으로 중요한지 파악하기 어렵다. 이처럼 발전하는 분야에 체계를 부여하기 위해, 우리는 통합된 프레임워크와 평가 설정 하에서 VLA 설계 공간을 재검토한다. RT-2 및 OpenVLA와 유사한 단순한 VLA 베이스라인에서 출발하여, 우리는 기본 구성 요소, 인식 필수 요소, 행동 모델링 관점이라는 세 가지 차원에 따라 설계 선택 사항들을 체계적으로 분석한다. 이 연구를 통해 우리는 강력한 VLA 모델을 구축하기 위한 실질적인 레시피를 구성하는 12가지 주요 발견을 도출한다. 이러한 탐색의 결과물이 바로 단순하면서도 효과적인 모델인 VLANeXt이다. VLANeXt는 LIBERO 및 LIBERO-plus 벤치마크에서 기존 최고 성능(state-of-the-art) 방법들을 능가하며, 실제 환경 실험에서도 강력한 일반화 능력을 입증한다. 우리는 커뮤니티가 우리의 연구 결과를 재현하고, 설계 공간을 탐색하며, 공유된 기반 위에서 새로운 VLA 변형 모델을 구축하기 위한 공통 플랫폼으로 활용할 수 있도록 사용하기 쉬운 통합 코드베이스를 공개할 예정이다.

Original Abstract

Following the rise of large foundation models, Vision-Language-Action models (VLAs) emerged, leveraging strong visual and language understanding for general-purpose policy learning. Yet, the current VLA landscape remains fragmented and exploratory. Although many groups have proposed their own VLA models, inconsistencies in training protocols and evaluation settings make it difficult to identify which design choices truly matter. To bring structure to this evolving space, we reexamine the VLA design space under a unified framework and evaluation setup. Starting from a simple VLA baseline similar to RT-2 and OpenVLA, we systematically dissect design choices along three dimensions: foundational components, perception essentials, and action modelling perspectives. From this study, we distill 12 key findings that together form a practical recipe for building strong VLA models. The outcome of this exploration is a simple yet effective model, VLANeXt. VLANeXt outperforms prior state-of-the-art methods on the LIBERO and LIBERO-plus benchmarks and demonstrates strong generalization in real-world experiments. We will release a unified, easy-to-use codebase that serves as a common platform for the community to reproduce our findings, explore the design space, and build new VLA variants on top of a shared foundation.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!