VLA 모델에서 훈련 없이 어텐션 재조정을 통해 언어적 연관성을 복원하는 방법
Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration
비전-언어-행동(VLA) 모델은 로봇이 자연어 명령에 따라 조작 작업을 수행할 수 있도록 하며, 일반적인 로봇 제어 전략의 기반으로 점점 더 중요해지고 있습니다. 그러나, VLA 모델의 배포 환경과 다른(Out-of-Distribution, OOD) 명령에 대한 신뢰성은 아직 충분히 연구되지 않았습니다. 본 논문에서는 VLA 정책의 중요한 실패 사례를 밝히는데, 이는 언어 명령이 장면과 상반되더라도 VLA 정책이 시각적으로 타당한 행동을 계속 수행하는 현상입니다. 우리는 이 현상을 '언어적 무관심'이라고 부르며, VLA 정책이 행동 생성 과정에서 언어적 의미보다 시각적 선입견을 우선시한다는 것을 의미합니다. 이 문제를 체계적으로 분석하기 위해, 우리는 LIBERO 데이터셋을 기반으로 언어-행동 결합을 측정하고, 시각적 환경은 동일하게 유지하면서 제어된 OOD 명령의 모순을 주입하는 진단 벤치마크인 ICBench를 제안합니다. Pi0, Pi0.5, OpenVLA OFT를 포함한 세 가지 대표적인 VLA 아키텍처에 대한 실험 결과, 이러한 모델들이 논리적으로 불가능한 명령에도 불구하고 작업을 성공적으로 수행하는 경우가 빈번하게 나타나며, 이는 행동 생성 과정에서 시각적 편향이 강하게 작용한다는 것을 보여줍니다. 이러한 문제를 완화하기 위해, 우리는 훈련 없이 추론 시점에 언어 명령의 영향을 재조정하는 Instruction-Guided Attention Recalibration (IGAR)이라는 방법을 제안합니다. IGAR은 재훈련이나 아키텍처 수정 없이 기존의 VLA 모델에 직접 적용할 수 있습니다. 30개의 LIBERO 작업에 대한 실험 결과, IGAR은 OOD 환경에서 모순되는 명령으로 인해 발생하는 오류 실행을 크게 줄이는 동시에, 기본적인 작업 성능을 유지합니다. 또한, 실제 Franka 로봇 팔을 사용하여 IGAR의 효과를 검증한 결과, 일관되지 않은 명령으로 인한 조작을 효과적으로 방지할 수 있음을 확인했습니다.
Vision-Language-Action (VLA) models enable robots to perform manipulation tasks directly from natural language instructions and are increasingly viewed as a foundation for generalist robotic policies. However, their reliability under Out-of-Distribution (OOD) instructions remains underexplored. In this paper, we reveal a critical failure mode in which VLA policies continue executing visually plausible actions even when the language instruction contradicts the scene. We refer to this phenomenon as linguistic blindness, where VLA policies prioritize visual priors over instruction semantics during action generation. To systematically analyze this issue, we introduce ICBench, a diagnostic benchmark constructed from the LIBERO dataset that probes language-action coupling by injecting controlled OOD instruction contradictions while keeping the visual environment unchanged. Evaluations on three representative VLA architectures, including Pi0, Pi0.5 and OpenVLA OFT, show that these models frequently succeed at tasks despite logically impossible instructions, revealing a strong visual bias in action generation. To mitigate this issue, we propose Instruction-Guided Attention Recalibration (IGAR), a train-free inference-time mechanism that rebalances attention distributions to restore the influence of language instructions. IGAR operates without retraining or architectural modification and can be directly applied to existing VLA models. Experiments across 30 LIBERO tasks demonstrate that IGAR substantially reduces erroneous execution under OOD contradictory instructions while preserving baseline task performance. We additionally validate the approach on a real Franka robotic arm, where IGAR effectively prevents manipulation triggered by inconsistent instructions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.