ATA: 어텐션 기반 및 액션 기반 추론을 통해 암묵적 추론을 연결하여 비전-언어-액션 모델 성능 향상
ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models
비전-언어-액션(VLA) 모델은 이미지, 언어 지시, 로봇 상태를 포함한 현재 정보를 활용하여 행동을 예측하고 작업을 완료합니다. 정확한 시각적 인식은 정밀한 행동 예측 및 실행에 매우 중요하지만, 최근 연구에서는 추론 과정에서 명시적인 추론을 도입하여 성능을 더욱 향상시키려는 시도가 있었습니다. 그러나 이러한 접근 방식은 상당한 한계점을 가지고 있습니다. 종종, 작업 단계를 세분화하여 추론하는 Chain-of-Thought(CoT) 스타일의 어노테이션과 같이 데이터 집약적인 리소스에 의존하며, 많은 경우 관련 이미지 영역을 강조하기 위해 추가적인 시각적 어노테이션(예: 바운딩 박스 또는 마스크)이 필요합니다. 또한, 시간 소모적인 데이터셋 구축, 라벨링, 그리고 재학습이 필요하며, 이는 결국 더 긴 추론 과정을 초래하고 효율성을 저하시킵니다. 이러한 문제점을 해결하기 위해, 우리는 새로운 훈련 불필요한 프레임워크인 ATA를 제안합니다. ATA는 상호 보완적인 어텐션 기반 및 액션 기반 전략을 통해 VLA 추론 과정에 암묵적인 추론을 도입합니다. CoT 또는 명시적인 시각적 어노테이션 방법과 달리, ATA는 어텐션 맵을 액션 기반의 관심 영역(RoI)과 통합하여 추론을 암묵적으로 수행함으로써, 추가적인 훈련이나 어노테이션 없이 시각적 입력을 적응적으로 개선합니다. ATA는 VLA 모델에 적용하기 쉬운, 가볍고 효과적인 암묵적 추론 방식입니다. 광범위한 실험 결과, ATA는 작업 성공률과 안정성을 꾸준히 향상시키면서도 추론 효율성을 유지하거나 향상시키는 것을 보여줍니다.
Vision-Language-Action (VLA) models rely on current observations, including images, language instructions, and robot states, to predict actions and complete tasks. While accurate visual perception is crucial for precise action prediction and execution, recent work has attempted to further improve performance by introducing explicit reasoning during inference. However, such approaches face significant limitations. They often depend on data-intensive resources such as Chain-of-Thought (CoT) style annotations to decompose tasks into step-by-step reasoning, and in many cases require additional visual grounding annotations (e.g., bounding boxes or masks) to highlight relevant image regions. Moreover, they involve time-consuming dataset construction, labeling, and retraining, which ultimately results in longer inference sequences and reduced efficiency. To address these challenges, we propose ATA, a novel training-free framework that introduces implicit reasoning into VLA inference through complementary attention-guided and action-guided strategies. Unlike CoT or explicit visual-grounding methods, ATA formulates reasoning implicitly by integrating attention maps with an action-based region of interest (RoI), thereby adaptively refining visual inputs without requiring extra training or annotations. ATA is a plug-and-play implicit reasoning approach for VLA models, lightweight yet effective. Extensive experiments show that it consistently improves task success and robustness while preserving, and even enhancing, inference efficiency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.