2605.07079v1 May 08, 2026 cs.CV

잔여 잠재 행동 기반 시각 특징 모델 학습

Learning Visual Feature-Based World Models via Residual Latent Action

Zhengtong Xu
Zhengtong Xu
Citations: 150
h-index: 8
Xinyu Zhang
Xinyu Zhang
Citations: 16
h-index: 2
Yu Tao
Yu Tao
Citations: 8
h-index: 2
Ye Wang
Ye Wang
Citations: 217
h-index: 4
Yuqin She
Yuqin She
Citations: 2
h-index: 1
Abdeslam Boularias
Abdeslam Boularias
Citations: 246
h-index: 6

월드 모델은 관측 및 행동으로부터 미래의 상태 변화를 예측합니다. 기존 연구는 주로 이미지 생성에 초점을 맞추는 반면, 시각 특징 기반 월드 모델은 원시 비디오 픽셀 대신 미래의 시각적 특징을 예측하여, 더욱 효율적이고 환각 현상에 덜 취약한 대안을 제공합니다. 그러나 현재의 특징 기반 접근 방식은 직접적인 회귀에 의존하는데, 이는 복잡한 상호 작용에서 흐릿하거나 뭉개진 예측 결과를 초래합니다. 또한, 고차원 특징 공간에서의 생성 모델링은 여전히 어려운 과제입니다. 본 연구에서는 DINO 잔여 값으로부터 쉽게 학습할 수 있는 새로운 유형의 잠재 행동 표현, 즉 *잔여 잠재 행동 (Residual Latent Action, RLA)*을 발견했습니다. 또한, RLA가 예측 가능하고, 일반화 가능하며, 시간적 진행을 인코딩한다는 것을 보여줍니다. RLA를 기반으로, 우리는 *RLA 월드 모델 (RLA-WM)*을 제안합니다. RLA-WM은 플로우 매칭을 통해 RLA 값을 예측하며, 시뮬레이션 및 실제 데이터셋에서 최첨단 특징 기반 및 비디오 확산 월드 모델보다 우수한 성능을 보입니다. 또한, 비디오 확산 방식보다 훨씬 빠른 속도를 자랑합니다. 더 나아가, RLA-WM을 사용하여 정책 학습을 개선하는 두 가지 로봇 학습 기술을 개발했습니다. 첫 번째는 RLA를 사용한 최소한의 월드 행동 모델로, 행동이 없는 데모 비디오로부터 학습합니다. 두 번째는 오프라인 비디오 데이터만을 사용하여 학습된 월드 모델 내에서 완전히 훈련된 최초의 시각 강화 학습 프레임워크로, 비디오에 정렬된 보상과 온라인 상호 작용 또는 수동으로 설계된 보상이 필요하지 않습니다. 프로젝트 페이지: https://mlzxy.github.io/rla-wm

Original Abstract

World models predict future transitions from observations and actions. Existing works predominantly focus on image generation only. Visual feature-based world models, on the other hand, predict future visual features instead of raw video pixels, offering a promising alternative that is more efficient and less prone to hallucination. However, current feature-based approaches rely on direct regression, which leads to blurry or collapsed predictions in complex interactions, while generative modeling in high-dimensional feature spaces still remains challenging. In this work, we discover that a new type of latent action representation, which we refer to as *Residual Latent Action* (RLA), can be easily learned from DINO residuals. We also show that RLA is predictive, generalizable, and encodes temporal progression. Building on RLA, we propose *RLA World Model* (RLA-WM), which predicts RLA values via flow matching. RLA-WM outperforms both state-of-the-art feature-based and video-diffusion world models on simulation and real-world datasets, while being orders of magnitude faster than video diffusion. Furthermore, we develop two robot learning techniques that use RLA-WM to improve policy learning. The first one is a minimalist world action model with RLA that learns from actionless demonstration videos. The second one is the first visual RL framework trained entirely inside a world model learned from offline videos only, using a video-aligned reward and no online interactions or handcrafted rewards. Project page: https://mlzxy.github.io/rla-wm

2 Citations
0 Influential
4 Altmetric
22.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!