LangForce: 잠재적 액션 쿼리를 이용한 비전-언어-액션 모델의 베이지안 분해
LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries
비전-언어-액션(VLA) 모델은 로봇 조작 분야에서 가능성을 보여주었지만, 새로운 지시사항이나 복잡한 다중 작업 시나리오에 대한 일반화 능력은 종종 부족합니다. 우리는 현재의 학습 방식에서 발생하는 중요한 문제점을 발견했습니다. 목표 지향적인 데이터 수집은 데이터 편향을 초래하며, 이러한 데이터셋에서는 시각적 관찰만으로도 언어 지시사항을 쉽게 예측할 수 있기 때문에, 언어 지시사항과 액션 간의 조건부 상호 정보가 사라지는 현상, 즉 '정보 붕괴(Information Collapse)'가 발생합니다. 그 결과, 모델은 언어 제약을 무시하고 시각 정보만을 사용하는 정책으로 퇴화되어, 분포 외(OOD) 환경에서 실패합니다. 이러한 문제를 해결하기 위해, 우리는 베이지안 분해를 통해 지시사항 준수를 강화하는 새로운 프레임워크인 LangForce를 제안합니다. 학습 가능한 잠재적 액션 쿼리를 도입하여, 시각 정보만을 사용한 사전 분포 $p(a ilde{v})$와 언어 정보에 조건화된 사후 분포 $π(a ilde{v}, ilde{l})$를 추정하는 이중 구조를 구축합니다. 이후, 액션과 지시사항 간의 조건부 포인트와이즈 상호 정보(PMI)를 최대화하도록 정책을 최적화합니다. 이러한 목적 함수는 시각 정보에 의존하는 방식을 효과적으로 억제하고, 언어 명령을 명시적으로 설명하는 액션을 장려합니다. LangForce는 새로운 데이터 없이도 일반화 능력을 크게 향상시킵니다. SimplerEnv 및 RoboCasa 환경에서의 광범위한 실험 결과, 상당한 성능 향상을 보였으며, 특히 어려운 OOD SimplerEnv 벤치마크에서 11.3%의 성능 향상을 보여주어, 저희 접근 방식이 언어를 액션에 안정적으로 연결하는 능력을 입증했습니다.
Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose LangForce, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior $p(a \mid v)$ and a language-conditioned posterior $π(a \mid v, \ell)$. We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, LangForce significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.