잔여 잠재 행동 기반 시각 특징 모델 학습
Learning Visual Feature-Based World Models via Residual Latent Action
월드 모델은 관측 및 행동으로부터 미래의 상태 변화를 예측합니다. 기존 연구는 주로 이미지 생성에 초점을 맞추는 반면, 시각 특징 기반 월드 모델은 원시 비디오 픽셀 대신 미래의 시각적 특징을 예측하여, 더욱 효율적이고 환각 현상에 덜 취약한 대안을 제공합니다. 그러나 현재의 특징 기반 접근 방식은 직접적인 회귀에 의존하는데, 이는 복잡한 상호 작용에서 흐릿하거나 뭉개진 예측 결과를 초래합니다. 또한, 고차원 특징 공간에서의 생성 모델링은 여전히 어려운 과제입니다. 본 연구에서는 DINO 잔여 값으로부터 쉽게 학습할 수 있는 새로운 유형의 잠재 행동 표현, 즉 *잔여 잠재 행동 (Residual Latent Action, RLA)*을 발견했습니다. 또한, RLA가 예측 가능하고, 일반화 가능하며, 시간적 진행을 인코딩한다는 것을 보여줍니다. RLA를 기반으로, 우리는 *RLA 월드 모델 (RLA-WM)*을 제안합니다. RLA-WM은 플로우 매칭을 통해 RLA 값을 예측하며, 시뮬레이션 및 실제 데이터셋에서 최첨단 특징 기반 및 비디오 확산 월드 모델보다 우수한 성능을 보입니다. 또한, 비디오 확산 방식보다 훨씬 빠른 속도를 자랑합니다. 더 나아가, RLA-WM을 사용하여 정책 학습을 개선하는 두 가지 로봇 학습 기술을 개발했습니다. 첫 번째는 RLA를 사용한 최소한의 월드 행동 모델로, 행동이 없는 데모 비디오로부터 학습합니다. 두 번째는 오프라인 비디오 데이터만을 사용하여 학습된 월드 모델 내에서 완전히 훈련된 최초의 시각 강화 학습 프레임워크로, 비디오에 정렬된 보상과 온라인 상호 작용 또는 수동으로 설계된 보상이 필요하지 않습니다. 프로젝트 페이지: https://mlzxy.github.io/rla-wm
World models predict future transitions from observations and actions. Existing works predominantly focus on image generation only. Visual feature-based world models, on the other hand, predict future visual features instead of raw video pixels, offering a promising alternative that is more efficient and less prone to hallucination. However, current feature-based approaches rely on direct regression, which leads to blurry or collapsed predictions in complex interactions, while generative modeling in high-dimensional feature spaces still remains challenging. In this work, we discover that a new type of latent action representation, which we refer to as *Residual Latent Action* (RLA), can be easily learned from DINO residuals. We also show that RLA is predictive, generalizable, and encodes temporal progression. Building on RLA, we propose *RLA World Model* (RLA-WM), which predicts RLA values via flow matching. RLA-WM outperforms both state-of-the-art feature-based and video-diffusion world models on simulation and real-world datasets, while being orders of magnitude faster than video diffusion. Furthermore, we develop two robot learning techniques that use RLA-WM to improve policy learning. The first one is a minimalist world action model with RLA that learns from actionless demonstration videos. The second one is the first visual RL framework trained entirely inside a world model learned from offline videos only, using a video-aligned reward and no online interactions or handcrafted rewards. Project page: https://mlzxy.github.io/rla-wm
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.