평균 흐름 기반의 단일 단계 시각-언어-행동 모델
Mean-Flow based One-Step Vision-Language-Action
최근 FlowMatching 기반 시각-언어-행동(VLA) 프레임워크의 발전은 특히 고도의 정밀 로봇 조작 작업에서 고주파 액션 단위를 생성하는 데 상당한 장점을 보여주었습니다. 그러나 이러한 주목할 만한 성과에도 불구하고, 이러한 시스템은 반복적인 샘플링 요구 사항과 아키텍처적 제약으로 인해 발생하는 장기간의 생성 지연이라는 실질적인 한계에 직면해 있습니다. 이러한 중요한 병목 현상을 해결하기 위해, 우리는 평균 흐름 기반의 단일 단계 VLA 접근 방식을 제안합니다. 구체적으로, 액션 생성 과정에서 발생하는 노이즈 문제를 해결함으로써, 기존 Flow-Matching 방법에서 발생하는 일관성 제약을 제거합니다. 이를 통해 생성 효율성을 크게 향상시키고 단일 단계 액션 생성을 가능하게 합니다. 실제 로봇 실험 결과, 제안하는 평균 흐름 기반의 단일 단계 VLA 모델은 SmolVLA 및 Diffusion Policy에 비해 각각 8.7배, 83.9배 더 빠른 생성 속도를 보였습니다. 이러한 결과는 제안된 모델이 VLA 기반 로봇 조작을 위한 고효율의 핵심 기술로 잠재력이 매우 높음을 시사합니다.
Recent advances in FlowMatching-based Vision-Language-Action (VLA) frameworks have demonstrated remarkable advantages in generating high-frequency action chunks, particularly for highly dexterous robotic manipulation tasks. Despite these notable achievements, their practical applications are constrained by prolonged generation latency, which stems from inherent iterative sampling requirements and architectural limitations. To address this critical bottleneck, we propose a Mean-Flow based One-Step VLA approach. Specifically, we resolve the noise-induced issues in the action generation process, thereby eliminating the consistency constraints inherent to conventional Flow-Matching methods. This significantly enhances generation efficiency and enables one-step action generation. Real-world robotic experiments show that the generation speed of the proposed Mean-Flow based One-Step VLA is 8.7 times and 83.9 times faster than that of SmolVLA and Diffusion Policy, respectively. These results elucidate its great potential as a high-efficiency backbone for VLA-based robotic manipulation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.