ViVa: 로봇 강화 학습을 위한 비디오 생성 기반 가치 모델
ViVa: A Video-Generative Value Model for Robot Reinforcement Learning
비전-언어-행동(VLA) 모델은 대규모 사전 학습을 통해 로봇 조작 능력을 향상시켜 왔지만, 부분적인 관측 가능성과 지연된 피드백으로 인해 실제 환경에서의 활용은 여전히 어려운 과제입니다. 강화 학습은 가치 함수를 통해 이러한 문제를 해결하며, 가치 함수는 작업 진행 상황을 평가하고 정책 개선을 안내합니다. 그러나 기존의 비전-언어 모델(VLM) 기반 가치 모델은 시간적 역학 관계를 제대로 반영하지 못하여, 장기적인 작업에서 신뢰할 수 있는 가치 추정을 어렵게 만듭니다. 본 논문에서는 사전 학습된 비디오 생성 모델을 활용하여 가치 추정을 수행하는 비디오 생성 기반 가치 모델인 ViVa를 제안합니다. ViVa는 현재 관측 정보와 로봇의 고유 정보를 입력으로 받아, 미래의 로봇 고유 정보를 예측하고 현재 상태에 대한 스칼라 값을 동시에 예측합니다. ViVa는 사전 학습된 비디오 생성 모델의 공간-시간적 사전 지식을 활용하여, 가치 추정을 예상되는 로봇의 움직임과 연관시키고, 정적인 스냅샷을 넘어선 선제적인 방식으로 가치를 평가합니다. RECAP에 통합된 ViVa는 실제 환경에서의 상자 조립 작업에서 상당한 성능 향상을 보여줍니다. 세 가지 작업에 대한 질적 분석 결과, ViVa가 더 신뢰할 수 있는 가치 신호를 생성하며, 작업 진행 상황을 정확하게 반영한다는 것을 확인했습니다. 또한, ViVa는 비디오 데이터에서 얻은 공간-시간적 사전 지식을 활용하여 새로운 객체에도 잘 일반화되는 것을 보여주며, 가치 추정을 위한 비디오 생성 모델의 잠재력을 강조합니다.
Vision-language-action (VLA) models have advanced robot manipulation through large-scale pretraining, but real-world deployment remains challenging due to partial observability and delayed feedback. Reinforcement learning addresses this via value functions, which assess task progress and guide policy improvement. However, existing value models built on vision-language models (VLMs) struggle to capture temporal dynamics, undermining reliable value estimation in long-horizon tasks. In this paper, we propose ViVa, a video-generative value model that repurposes a pretrained video generator for value estimation. Taking the current observation and robot proprioception as input, ViVa jointly predicts future proprioception and a scalar value for the current state. By leveraging the spatiotemporal priors of a pretrained video generator, our approach grounds value estimation in anticipated embodiment dynamics, moving beyond static snapshots to intrinsically couple value with foresight. Integrated into RECAP, ViVa delivers substantial improvements on real-world box assembly. Qualitative analysis across all three tasks confirms that ViVa produces more reliable value signals, accurately reflecting task progress. By leveraging spatiotemporal priors from video corpora, ViVa also generalizes to novel objects, highlighting the promise of video-generative models for value estimation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.