2602.12322v1 Feb 12, 2026 cs.RO

ForeAct: 효율적인 시각적 예측 계획을 통한 VLA 제어

ForeAct: Steering Your VLA with Efficient Visual Foresight Planning

Zhuoyang Zhang
Zhuoyang Zhang
Citations: 1,257
h-index: 10
Shang Yang
Shang Yang
Citations: 3,874
h-index: 14
Luke J. Huang
Luke J. Huang
Citations: 10
h-index: 2
Yao Lu
Yao Lu
Citations: 1,233
h-index: 8
Song Han
Song Han
Citations: 35
h-index: 2
Qinghao Hu
Qinghao Hu
Citations: 495
h-index: 7
James Hou
James Hou
Citations: 35
h-index: 2
Yufei Sun
Yufei Sun
Citations: 69
h-index: 4

비전-언어-행동(Vision-Language-Action, VLA) 모델은 고차원적인 언어 명령을 구체적이고 실행 가능한 행동으로 변환하며, 이는 오픈 월드 환경에서 특히 어려운 작업이다. 우리는 가상의 미래 관측치와 하위 작업 설명을 사용하여 VLA를 단계별로 안내하는 범용적이고 효율적인 플래너인 ForeAct(Visual Foresight Planning)를 제안한다. 가상의 미래 관측치를 제공함으로써 VLA는 고차원적인 의미론적 추론보다는 시각-운동(visuo-motor) 추론에 집중할 수 있으며, 이를 통해 정확도와 일반화 성능이 향상된다. 우리의 플래너는 H100 GPU 기준 단 0.33초 만에 현재의 시각적 입력과 언어 명령으로부터 고품질의 640$\times$480 미래 관측치를 예측하는 고효율 예측 이미지 생성 모듈과, 작업을 추론하여 생성기 및 VLA 모두에 하위 작업 설명을 제공하는 비전-언어 모델로 구성된다. 특히 최신 VLA 모델들은 아키텍처를 전혀 수정할 필요 없이 시각적 입력을 증강하는 것만으로 우리의 플래너를 매끄럽게 통합할 수 있다. 예측 생성기는 100만 개 이상의 다중 작업 및 다양한 형태의 로봇(cross-embodiment) 에피소드에 대해 사전 학습되어 강건한 체화 동역학(embodied dynamics)을 학습한다. 우리는 11가지의 다양하고 다단계로 구성된 실제 환경 작업 벤치마크에서 제안하는 프레임워크를 평가했다. 그 결과 평균 성공률 87.4%를 달성하여, $π_0$ 베이스라인(46.5%) 대비 +40.9%p, 텍스트 하위 작업 안내가 추가된 $π_0$(57.1%) 대비 +30.3%p의 절대적인 성능 향상을 입증했다.

Original Abstract

Vision-Language-Action (VLA) models convert high-level language instructions into concrete, executable actions, a task that is especially challenging in open-world environments. We present Visual Foresight Planning (ForeAct), a general and efficient planner that guides a VLA step-by-step using imagined future observations and subtask descriptions. With an imagined future observation, the VLA can focus on visuo-motor inference rather than high-level semantic reasoning, leading to improved accuracy and generalization. Our planner comprises a highly efficient foresight image generation module that predicts a high-quality 640$\times$480 future observation from the current visual input and language instruction within only 0.33s on an H100 GPU, together with a vision-language model that reasons over the task and produces subtask descriptions for both the generator and the VLA. Importantly, state-of-the-art VLAs can integrate our planner seamlessly by simply augmenting their visual inputs, without any architectural modification. The foresight generator is pretrained on over 1 million multi-task, cross-embodiment episodes, enabling it to learn robust embodied dynamics. We evaluate our framework on a benchmark that consists of 11 diverse, multi-step real-world tasks. It achieves an average success rate of 87.4%, demonstrating a +40.9% absolute improvement over the $π_0$ baseline (46.5%) and a +30.3% absolute improvement over $π_0$ augmented with textual subtask guidance (57.1%).

4 Citations
0 Influential
7 Altmetric
39.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!