WoVR: 신뢰성 있는 시뮬레이터로서의 월드 모델을 활용한 강화 학습 기반 VLA 정책 훈련 방법
WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL
강화 학습(RL)은 비전-언어-행동(VLA) 모델의 모방 학습을 넘어선 잠재력을 제공하지만, 실제 환경과의 대규모 상호작용이 필요하기 때문에 물리 로봇에 직접 적용하기 어렵습니다. 최근 연구에서는 학습된 월드 모델을 정책 최적화를 위한 시뮬레이터로 사용하려는 시도가 있었지만, 폐루프 시뮬레이션은 필연적으로 환각 현상과 장기적인 오차 누적 문제를 야기합니다. 이러한 오류는 시각적 정확성 저하뿐만 아니라 최적화 신호를 왜곡하여, 정책이 모델의 부정확성을 악용하도록 유도하고 실제 작업 수행 능력을 저해합니다. 본 연구에서는 WoVR이라는 신뢰성 있는 월드 모델 기반 강화 학습 프레임워크를 제안합니다. WoVR은 완벽한 월드 모델을 가정하는 대신, 강화 학습이 불완전한 시뮬레이션 환경과 상호작용하는 방식을 명시적으로 제어합니다. WoVR은 제어 가능한 액션 기반 비디오 월드 모델을 통해 롤아웃의 안정성을 향상시키고, 키프레임 초기화 롤아웃을 통해 효과적인 오류 깊이를 줄이며, 월드 모델-정책의 공동 진화를 통해 정책과 시뮬레이터의 일관성을 유지합니다. LIBERO 벤치마크 및 실제 로봇 조작 실험 결과, WoVR은 안정적인 장기 롤아웃과 효과적인 정책 최적화를 가능하게 하며, LIBERO 성공률을 39.95%에서 69.2%로 (+29.3 포인트), 실제 로봇 성공률을 61.7%에서 91.7%로 (+30.0 포인트) 향상시켰습니다. 이러한 결과는 학습된 월드 모델이 환각 현상을 명시적으로 제어할 때 강화 학습을 위한 실용적인 시뮬레이터로 활용될 수 있음을 보여줍니다.
Reinforcement learning (RL) promises to unlock capabilities beyond imitation learning for Vision-Language-Action (VLA) models, but its requirement for massive real-world interaction prevents direct deployment on physical robots. Recent work attempts to use learned world models as simulators for policy optimization, yet closed-loop imagined rollouts inevitably suffer from hallucination and long-horizon error accumulation. Such errors do not merely degrade visual fidelity; they corrupt the optimization signal, encouraging policies to exploit model inaccuracies rather than genuine task progress. We propose WoVR, a reliable world-model-based reinforcement learning framework for post-training VLA policies. Instead of assuming a faithful world model, WoVR explicitly regulates how RL interacts with imperfect imagined dynamics. It improves rollout stability through a controllable action-conditioned video world model, reshapes imagined interaction to reduce effective error depth via Keyframe-Initialized Rollouts, and maintains policy-simulator alignment through World Model-Policy co-evolution. Extensive experiments on LIBERO benchmarks and real-world robotic manipulation demonstrate that WoVR enables stable long-horizon imagined rollouts and effective policy optimization, improving average LIBERO success from 39.95% to 69.2% (+29.3 points) and real-robot success from 61.7% to 91.7% (+30.0 points). These results show that learned world models can serve as practical simulators for reinforcement learning when hallucination is explicitly controlled.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.