FUTURE-VLA: 실시간 실행 환경에서 통합된 경로 예측
FUTURE-VLA: Forecasting Unified Trajectories Under Real-time Execution
최근의 통합된 시각-언어 모델은 장기간의 비디오 스트림에 대한 통합적인 시공간적 추론을 지원하지만, 로봇에 이러한 기능을 적용하는 데는 장기적인 과거 데이터를 처리하고 고차원적인 미래 예측을 생성하는 데 필요한 과도한 지연 시간이 걸린다는 문제가 있습니다. 이러한 격차를 해소하기 위해, 우리는 장기적인 제어와 미래 예측을 단일한 시퀀스 생성 작업으로 재구성하는 통합 아키텍처인 FUTURE-VLA를 제안합니다. FUTURE-VLA는 양면의 효율성 패러다임을 채택하여, 시공간 정보 밀도를 극대화하는 시간적 적응형 압축 전략을 활용함으로써 광범위한 다중 시점 과거 데이터를 효율적으로 처리하면서도 일정한 추론 지연 시간을 유지합니다. 동시에, 잠재 공간 자기 회귀를 사용하여 실행 가능한 동역학을 검토 가능한 시각적 미래 예측과 일치시키고, 이를 단일 단계로 수행합니다. 이러한 실시간 예측 기능은 또한 예측 기반의 인간-로봇 협업 메커니즘을 통해 상호 작용적인 실행 게이팅을 가능하게 하여, 사용자가 해석 가능한 미래 예측을 기반으로 로봇의 동작을 동적으로 검증할 수 있도록 합니다. 광범위한 실험 결과는 FUTURE-VLA가 새로운 최고 성능을 달성함을 보여주며, LIBERO 데이터셋에서 99.2%, RoboTwin 데이터셋에서 75.4%, 실제 Piper 플랫폼에서 78.0%의 성공률을 기록했습니다. 이는 단일 프레임 수준의 지연 시간으로 유지하면서 $16 imes$만큼 확장된 시공간 정보를 활용했음을 의미합니다.
General vision-language models increasingly support unified spatiotemporal reasoning over long video streams, yet deploying such capabilities on robots remains constrained by the prohibitive latency of processing long-horizon histories and generating high-dimensional future predictions. To bridge this gap, we present FUTURE-VLA, a unified architecture that reformulates long-horizon control and future forecasting as a monolithic sequence-generation task. Adopting a dual-sided efficiency paradigm, FUTURE-VLA leverages a temporally adaptive compression strategy to maximize spatiotemporal information density, enabling the ingestion of extensive multi-view histories while maintaining constant inference latency. Simultaneously, it performs latent-space autoregression to align actionable dynamics with reviewable visual look-aheads in a single forward pass. These real-time predictive capabilities further enable a prediction-guided Human-In-the-Loop mechanism via interactive execution gating, allowing operators to dynamically validate behaviors based on interpretable future previews. Extensive evaluations demonstrate that FUTURE-VLA establishes new state-of-the-art performance, attaining success rates of 99.2% on LIBERO, 75.4% on RoboTwin, and 78.0% on a real-world Piper platform, all with a $16\times$ extended spatiotemporal window while maintaining the inference latency of a single-frame baseline.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.