CF-VLA: 시각-언어-행동 정책을 위한 효율적인 거칠기-세밀화 행동 생성 방법
CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies
흐름 기반 시각-언어-행동(VLA) 정책은 행동 생성에 강력한 표현력을 제공하지만, 근본적인 비효율성을 가지고 있습니다. 즉, 유용한 정보를 담지 못한 가우시안 노이즈로부터 행동 구조를 복원하기 위해 다단계 추론이 필요하며, 이는 실시간 제약 조건 하에서 효율성과 품질 사이의 균형을 저해합니다. 우리는 생성적 행동 모델링에서 시작점의 역할을 재고함으로써 이 문제를 해결합니다. 샘플링 경로를 단축하는 대신, 행동 인식 시작점을 구성하는 거칠기 초기화 단계와 잔여 오류를 수정하는 단일 단계의 로컬 개선 단계를 결합한 두 단계 방식인 CF-VLA를 제안합니다. 구체적으로, 거칠기 단계는 가우시안 노이즈를 구조화된 초기화로 변환하기 위해 종단 속도에 대한 조건부 사후 분포를 학습하며, 세밀화 단계는 이 초기화로부터 고정된 시간 동안 개선을 수행합니다. 학습 안정성을 위해, 우리는 먼저 제어된 거칠기 예측기를 학습하고, 그 다음 전체 최적화를 수행하는 단계적 전략을 도입했습니다. CALVIN 및 LIBERO 데이터셋에 대한 실험 결과, 우리의 방법은 낮은 NFE(함수 평가 횟수) 환경에서 뛰어난 효율성과 성능을 동시에 달성합니다. 우리의 방법은 기존의 NFE=2 방법보다 일관되게 우수한 성능을 보이며, 여러 지표에서 NFE=10 $π_{0.5}$ 기준 성능과 동등하거나 능가합니다. 또한, 행동 샘플링 지연 시간을 75.4% 줄이고, 평균 실시간 로봇 성공률을 83.0%로 향상시켜, MIP보다 19.5 포인트, $π_{0.5}$보다 4.0 포인트 더 높은 성능을 보입니다. 이러한 결과는 구조화된 거칠기-세밀화 생성이 강력한 성능과 효율적인 추론을 모두 가능하게 한다는 것을 시사합니다. 저희의 코드는 https://github.com/EmbodiedAI-RoboTron/CF-VLA 에서 확인할 수 있습니다.
Flow-based vision-language-action (VLA) policies offer strong expressivity for action generation, but suffer from a fundamental inefficiency: multi-step inference is required to recover action structure from uninformative Gaussian noise, leading to a poor efficiency-quality trade-off under real-time constraints. We address this issue by rethinking the role of the starting point in generative action modeling. Instead of shortening the sampling trajectory, we propose CF-VLA, a coarse-to-fine two-stage formulation that restructures action generation into a coarse initialization step that constructs an action-aware starting point, followed by a single-step local refinement that corrects residual errors. Concretely, the coarse stage learns a conditional posterior over endpoint velocity to transform Gaussian noise into a structured initialization, while the fine stage performs a fixed-time refinement from this initialization. To stabilize training, we introduce a stepwise strategy that first learns a controlled coarse predictor and then performs joint optimization. Experiments on CALVIN and LIBERO show that our method establishes a strong efficiency-performance frontier under low-NFE (Number of Function Evaluations) regimes: it consistently outperforms existing NFE=2 methods, matches or surpasses the NFE=10 $π_{0.5}$ baseline on several metrics, reduces action sampling latency by 75.4\%, and achieves the best average real-robot success rate of 83.0\%, outperforming MIP by 19.5 points and $π_{0.5}$ by 4.0 points. These results suggest that structured, coarse-to-fine generation enables both strong performance and efficient inference. Our code is available at https://github.com/EmbodiedAI-RoboTron/CF-VLA.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.