ForeAct: 효율적인 시각적 예측 계획을 통한 VLA 제어
ForeAct: Steering Your VLA with Efficient Visual Foresight Planning
비전-언어-행동(Vision-Language-Action, VLA) 모델은 고차원적인 언어 명령을 구체적이고 실행 가능한 행동으로 변환하며, 이는 오픈 월드 환경에서 특히 어려운 작업이다. 우리는 가상의 미래 관측치와 하위 작업 설명을 사용하여 VLA를 단계별로 안내하는 범용적이고 효율적인 플래너인 ForeAct(Visual Foresight Planning)를 제안한다. 가상의 미래 관측치를 제공함으로써 VLA는 고차원적인 의미론적 추론보다는 시각-운동(visuo-motor) 추론에 집중할 수 있으며, 이를 통해 정확도와 일반화 성능이 향상된다. 우리의 플래너는 H100 GPU 기준 단 0.33초 만에 현재의 시각적 입력과 언어 명령으로부터 고품질의 640$\times$480 미래 관측치를 예측하는 고효율 예측 이미지 생성 모듈과, 작업을 추론하여 생성기 및 VLA 모두에 하위 작업 설명을 제공하는 비전-언어 모델로 구성된다. 특히 최신 VLA 모델들은 아키텍처를 전혀 수정할 필요 없이 시각적 입력을 증강하는 것만으로 우리의 플래너를 매끄럽게 통합할 수 있다. 예측 생성기는 100만 개 이상의 다중 작업 및 다양한 형태의 로봇(cross-embodiment) 에피소드에 대해 사전 학습되어 강건한 체화 동역학(embodied dynamics)을 학습한다. 우리는 11가지의 다양하고 다단계로 구성된 실제 환경 작업 벤치마크에서 제안하는 프레임워크를 평가했다. 그 결과 평균 성공률 87.4%를 달성하여, $π_0$ 베이스라인(46.5%) 대비 +40.9%p, 텍스트 하위 작업 안내가 추가된 $π_0$(57.1%) 대비 +30.3%p의 절대적인 성능 향상을 입증했다.
Vision-Language-Action (VLA) models convert high-level language instructions into concrete, executable actions, a task that is especially challenging in open-world environments. We present Visual Foresight Planning (ForeAct), a general and efficient planner that guides a VLA step-by-step using imagined future observations and subtask descriptions. With an imagined future observation, the VLA can focus on visuo-motor inference rather than high-level semantic reasoning, leading to improved accuracy and generalization. Our planner comprises a highly efficient foresight image generation module that predicts a high-quality 640$\times$480 future observation from the current visual input and language instruction within only 0.33s on an H100 GPU, together with a vision-language model that reasons over the task and produces subtask descriptions for both the generator and the VLA. Importantly, state-of-the-art VLAs can integrate our planner seamlessly by simply augmenting their visual inputs, without any architectural modification. The foresight generator is pretrained on over 1 million multi-task, cross-embodiment episodes, enabling it to learn robust embodied dynamics. We evaluate our framework on a benchmark that consists of 11 diverse, multi-step real-world tasks. It achieves an average success rate of 87.4%, demonstrating a +40.9% absolute improvement over the $π_0$ baseline (46.5%) and a +30.3% absolute improvement over $π_0$ augmented with textual subtask guidance (57.1%).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.