ROCKET: 공간 인식 비전-언어-행동 모델을 위한 잔차 지향 다중 레이어 정렬
ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models
비전-언어-행동(VLA) 모델은 지시를 따르는 로봇 조작을 가능하게 하지만, 일반적으로 2D 데이터로 사전 학습되어 3D 공간에 대한 이해가 부족하다. 효과적인 접근법 중 하나는 강력한 비전 파운데이션 모델을 사용하여 2D VLA 모델을 안내하는 표현 정렬(representation alignment)이다. 그러나 기존 방법들은 보통 단일 레이어에만 감독(supervision)을 적용하여 깊이 전반에 걸쳐 분포된 풍부한 정보를 충분히 활용하지 못하며, 단순한 다중 레이어 정렬은 기울기 간섭을 유발할 수 있다. 우리는 다중 레이어 정렬을 하나의 잔차 스트림(residual stream)을 다른 스트림에 정렬하는 문제로 공식화한 잔차 지향 다중 레이어 표현 정렬 프레임워크인 ROCKET을 소개한다. 구체적으로 ROCKET은 공유 프로젝터를 채택하여 레이어 불변 매핑을 통해 VLA 백본의 여러 레이어를 강력한 3D 비전 파운데이션 모델의 여러 레이어와 정렬하며, 이를 통해 기울기 충돌을 줄인다. 우리는 공유 프로젝터가 충분한 역할을 하며 기존 설계들보다 뛰어난 성능을 보인다는 이론적 근거와 실증적 분석을 제공하고, 다중 정렬 손실의 균형을 맞추기 위해 공유 프로젝터에 대한 마트료시카(Matryoshka) 방식의 희소 활성화 기법을 추가로 제안한다. 실험 결과, 훈련이 필요 없는 레이어 선택 전략과 결합했을 때 ROCKET은 컴퓨팅 예산의 약 4%만을 필요로 하면서도 LIBERO에서 98.5%의 최고(state-of-the-art) 성공률을 달성했다. 우리는 더 나아가 다수의 VLA 모델뿐만 아니라 LIBERO-Plus 및 RoboTwin 전반에서 ROCKET의 우수한 성능을 입증한다. 코드와 모델 가중치는 https://github.com/CASE-Lab-UMD/ROCKET-VLA 에서 확인할 수 있다.
Vision-Language-Action (VLA) models enable instruction-following robotic manipulation, but they are typically pretrained on 2D data and lack 3D spatial understanding. An effective approach is representation alignment, where a strong vision foundation model is used to guide a 2D VLA model. However, existing methods usually apply supervision at only a single layer, failing to fully exploit the rich information distributed across depth; meanwhile, naïve multi-layer alignment can cause gradient interference. We introduce ROCKET, a residual-oriented multi-layer representation alignment framework that formulates multi-layer alignment as aligning one residual stream to another. Concretely, ROCKET employs a shared projector to align multiple layers of the VLA backbone with multiple layers of a powerful 3D vision foundation model via a layer-invariant mapping, which reduces gradient conflicts. We provide both theoretical justification and empirical analyses showing that a shared projector is sufficient and outperforms prior designs, and further propose a Matryoshka-style sparse activation scheme for the shared projector to balance multiple alignment losses. Our experiments show that, combined with a training-free layer selection strategy, ROCKET requires only about 4% of the compute budget while achieving 98.5% state-of-the-art success rate on LIBERO. We further demonstrate the superior performance of ROCKET across LIBERO-Plus and RoboTwin, as well as multiple VLA models. The code and model weights can be found at https://github.com/CASE-Lab-UMD/ROCKET-VLA.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.