비전-언어-행동 정렬에서 검증 스케일링이 정책 학습 스케일링보다 더 효과적일 수 있다
Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment
범용 로봇에 대한 오랜 비전은 자연어 지시를 이해하고 그에 따라 행동하는 능력에 달려 있다. 비전-언어-행동(VLA) 모델은 이러한 목표를 향해 괄목할 만한 진전을 이루었지만, 생성된 행동은 여전히 주어진 지시와 어긋날 수 있다. 본 논문에서 우리는 '의도-행동 간극(intention-action gap)'을 줄이기 위한 수단으로서 테스트 시간 검증(test-time verification)을 조사한다. 먼저 우리는 체화된 지시 수행(embodied instruction following)을 위한 테스트 시간 스케일링 법칙을 특성화하고, 재구성된 지시의 수와 생성된 행동의 수를 공동으로 스케일링하는 것이 테스트 시간 표본 다양성을 크게 증가시켜 각 차원을 독립적으로 스케일링하는 것보다 종종 더 효율적으로 올바른 행동을 복구한다는 것을 입증한다. 이러한 스케일링 법칙을 활용하기 위해 우리는 비전-언어-행동 정렬을 위한 대조 검증기(contrastive verifier)인 CoVer를 제시하며, 우리의 아키텍처가 추가적인 컴퓨팅 자원 및 데이터와 함께 유연하게 스케일링됨을 보여준다. 그런 다음 학습된 검증기를 사용하는 계층적 테스트 시간 검증 파이프라인인 CoVer-VLA를 소개한다. 배포 시, 우리의 프레임워크는 비전-언어 모델(VLM)을 통해 재구성된 다양한 지시 집합을 사전 계산하고, 각 지시에 대한 행동 후보를 반복적으로 생성한 다음, 검증기를 사용하여 최적의 고수준 프롬프트와 저수준 행동 청크(chunks)를 선택한다. 동일한 데이터에 대한 정책 사전 학습(policy pre-training) 스케일링과 비교하여, 우리의 검증 접근 방식은 SIMPLER 벤치마크의 분포 내(in-distribution)에서 22%, 분포 밖(out-of-distribution)에서 13%의 성능 향상을 얻었으며, 실제 환경 실험에서는 45%의 추가적인 향상을 보였다. PolaRiS 벤치마크에서 CoVer-VLA는 작업 진행률에서 14%, 성공률에서 9%의 향상을 달성했다.
The long-standing vision of general-purpose robots hinges on their ability to understand and act upon natural language instructions. Vision-Language-Action (VLA) models have made remarkable progress toward this goal, yet their generated actions can still misalign with the given instructions. In this paper, we investigate test-time verification as a means to shrink the "intention-action gap." We first characterize the test-time scaling laws for embodied instruction following and demonstrate that jointly scaling the number of rephrased instructions and generated actions greatly increases test-time sample diversity, often recovering correct actions more efficiently than scaling each dimension independently. To capitalize on these scaling laws, we present CoVer, a contrastive verifier for vision-language-action alignment, and show that our architecture scales gracefully with additional computational resources and data. We then introduce CoVer-VLA, a hierarchical test-time verification pipeline using the trained verifier. At deployment, our framework precomputes a diverse set of rephrased instructions from a Vision-Language-Model (VLM), repeatedly generates action candidates for each instruction, and then uses the verifier to select the optimal high-level prompt and low-level action chunks. Compared to scaling policy pre-training on the same data, our verification approach yields 22% gains in-distribution and 13% out-of-distribution on the SIMPLER benchmark, with a further 45% improvement in real-world experiments. On the PolaRiS benchmark, CoVer-VLA achieves 14% gains in task progress and 9% in success rate.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.