비디오 생성 정책을 위한 드래프트-타겟 샘플링
Draft-and-Target Sampling for Video Generation Policy
비디오 생성 모델은 로봇 정책으로 활용되어, 작업 설명 및 관찰 정보를 기반으로 작업 수행의 미래 상태를 예측합니다. 기존 연구에서는 이러한 모델의 높은 계산 비용과 긴 추론 시간을 간과했습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 학습이 필요 없는 새로운 확산 추론 패러다임인 드래프트-타겟 샘플링을 제안합니다. 이 방법은 비디오 생성 정책의 추론 효율성을 향상시킵니다. 우리는 단일 모델 내에서 상호 보완적인 두 개의 디노이징 경로를 활용하는 자체 학습 디노이징 방식을 도입했습니다. 드래프트 샘플링은 빠르게 전체 경로를 생성하기 위해 큰 단계를 취하고, 타겟 샘플링은 이를 검증하기 위해 작은 단계를 취합니다. 더욱 빠른 생성을 위해, 불필요한 계산을 줄이기 위해 토큰 분할 및 점진적 수용 전략을 도입했습니다. 세 가지 벤치마크에 대한 실험 결과, 제안하는 방법은 최대 2.1배의 속도 향상을 달성하며, 성공률에 거의 영향을 주지 않고 현재 최고 성능의 방법보다 효율성을 향상시킵니다. 저희 코드는 공개되어 있습니다.
Video generation models have been used as a robot policy to predict the future states of executing a task conditioned on task description and observation. Previous works ignore their high computational cost and long inference time. To address this challenge, we propose Draft-and-Target Sampling, a novel diffusion inference paradigm for video generation policy that is training-free and can improve inference efficiency. We introduce a self-play denoising approach by utilizing two complementary denoising trajectories in a single model, draft sampling takes large steps to generate a global trajectory in a fast manner and target sampling takes small steps to verify it. To further speedup generation, we introduce token chunking and progressive acceptance strategy to reduce redundant computation. Experiments on three benchmarks show that our method can achieve up to 2.1x speedup and improve the efficiency of current state-of-the-art methods with minimal compromise to the success rate. Our code is available.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.