2601.15197v1 Jan 21, 2026 cs.AI

BayesianVLA: 잠재 행동 쿼리를 이용한 시각-언어-행동 모델의 베이지안 분해

BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Shijie Lian Bin Yu Xiaopeng Lin Laurence T. Yang Zhaolong Shen Changti Wu Yuzhuo Miao Cong Huang Kai Chen

시각-언어-행동(VLA) 모델은 로봇 조작 분야에서 유망한 가능성을 보여주었으나, 새로운 지시 사항이나 복잡한 다중 작업 시나리오에 일반화하는 데 있어 종종 어려움을 겪습니다. 우리는 목표 주도형 데이터 수집이 데이터셋 편향을 유발하는 현재의 훈련 패러다임에서 중요한 문제점을 파악했습니다. 이러한 데이터셋에서는 시각적 관찰만으로도 언어 지시 사항을 매우 쉽게 예측할 수 있어, 지시 사항과 행동 간의 조건부 상호 정보가 소실되는 현상이 발생하며, 우리는 이를 '정보 붕괴(Information Collapse)'라고 명명합니다. 결과적으로 모델은 언어 제약 조건을 무시하는 시각 전용 정책으로 퇴화하여, 분포 외(OOD) 설정에서 실패하게 됩니다. 이 문제를 해결하기 위해, 우리는 베이지안 분해를 통해 지시 이행을 강화하는 새로운 프레임워크인 BayesianVLA를 제안합니다. 학습 가능한 '잠재 행동 쿼리(Latent Action Queries)'를 도입하여 시각 전용 사전 확률 $p(a \mid v)$와 언어 조건부 사후 확률 $\pi(a \mid v, \ell)$을 모두 추정하는 이중 분기 아키텍처를 구축합니다. 그런 다음 행동과 지시 사항 간의 조건부 점별 상호 정보(PMI)를 최대화하도록 정책을 최적화합니다. 이 목적 함수는 시각적 지름길(vision shortcut)을 효과적으로 억제하고, 언어 명령을 명시적으로 설명하는 행동에 보상을 제공합니다. BayesianVLA는 새로운 데이터를 필요로 하지 않으면서도 일반화 성능을 크게 향상시킵니다. SimplerEnv와 RoboCasa에서의 광범위한 실험을 통해 까다로운 OOD SimplerEnv 벤치마크에서 11.3%의 성능 향상을 포함한 상당한 성과를 입증하였으며, 이는 언어를 행동에 견고하게 그라운딩(grounding)하는 본 연구의 접근 방식이 유효함을 확인시켜 줍니다.

Original Abstract

Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior $p(a \mid v)$ and a language-conditioned posterior $π(a \mid v, \ell)$. We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.

0 Citations
0 Influential
0 Altmetric
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.