EVA: 역동학 보상을 통한 비디오 월드 모델과 로봇 액션의 정렬
EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards
비디오 생성 모델은 로봇 공학 분야에서 월드 모델로 점점 더 많이 사용되고 있습니다. 이러한 모델은 현재 관찰과 작업 지침을 기반으로 미래의 시각적 결과를 생성하며, 역동학 모델(IDM)은 생성된 프레임을 실행 가능한 로봇 액션으로 변환합니다. 그러나 현재 비디오 월드 모델은 명시적인 실행 가능성 제약 조건을 갖추고 있지 않습니다. 그 결과, 시각적으로 일관된 결과라도 강체 및 운동학적 일관성을 위반할 수 있으며, IDM에 의해 디코딩될 때 불안정하거나 실현 불가능한 제어 명령을 생성할 수 있습니다. 이러한 시각적 생성과 물리적으로 실행 가능한 제어 간의 불일치를 실행 가능성 간극이라고 합니다. 이 간극은 추론 시에 거부 샘플링과 같은 기술을 사용하여 완화할 수 있지만, 이러한 접근 방식은 비디오 생성의 높은 비용으로 인해 비효율적입니다. 본 논문에서는 실행 가능성 간극을 학습 신호로 활용하고, 비디오 월드 모델을 정렬하기 위한 강화 학습 후처리 프레임워크인 Executable Video Alignment (EVA)를 소개합니다. EVA는 실제 로봇 궤적에 대한 역동학 모델을 학습시키고, 이 모델을 생성된 비디오가 유도하는 액션 시퀀스를 통해 비디오를 평가하는 보상 모델로 재활용합니다. 이를 통해 속도, 가속도 및 충격으로 측정되는 부드러운 움직임을 장려하고, 신체 제약 조건을 위반하는 액션을 처벌합니다. 중요한 점은 생성된 비디오에 심각한 시각적 오류가 포함되어 있더라도 보상이 여전히 유효하다는 것입니다. 왜냐하면 이러한 오류는 일반적으로 불안정하거나 경계 범위를 벗어난 액션으로 이어지기 때문입니다. RoboTwin 벤치마크와 실제 양팔 로봇에 대한 실험 결과, EVA는 생성된 결과에서 로봇 특유의 오류를 줄이고, 하위 작업 실행 성공률을 향상시키는 것으로 나타났습니다.
Video generative models are increasingly used as world models for robotics, where a model generates a future visual rollout conditioned on the current observation and task instruction, and an inverse dynamics model (IDM) converts the generated frames into executable robot actions. However, current video world models lack explicit executability constraints. As a result, visually coherent rollouts may still violate rigid-body and kinematic consistency, producing unstable or infeasible control commands when decoded by an IDM. We refer to this mismatch between visual generation and physically executable control as the executability gap. While this gap can be mitigated at inference time using techniques such as rejection sampling, such approaches are inefficient due to the high cost of video generation. In this paper, we leverage the executability gap as a training signal and introduce Executable Video Alignment (EVA), a reinforcement-learning post-training framework for aligning video world models. EVA trains an inverse dynamics model on real robot trajectories and repurposes it as a reward model that evaluates generated videos through the action sequences they induce, encouraging smooth motions measured by velocity, acceleration, and jerk while penalizing actions that violate embodiment constraints. Importantly, the reward remains informative even when generated videos contain severe visual artifacts, since such artifacts typically translate into unstable or out-of-bound actions. Experiments on the RoboTwin benchmark and a real bimanual robot show that EVA reduces embodiment-specific artifacts in generated rollouts and improves downstream task execution success.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.