Olaf-World: 비디오 월드 모델링을 위한 잠재적 행동의 방향 설정
Olaf-World: Orienting Latent Actions for Video World Modeling
행동 제어가 가능한 월드 모델의 확장성은 행동 레이블의 부족으로 인해 제한됩니다. 잠재적 행동 학습은 레이블이 없는 비디오에서 제어 인터페이스를 추출할 수 있는 가능성을 제공하지만, 학습된 잠재 변수들은 종종 컨텍스트 간에 일반화되지 않습니다. 이는 학습된 잠재 변수들이 장면별 특징과 얽혀 있으며, 공유된 좌표계를 갖지 못하기 때문입니다. 이러한 문제는 표준적인 학습 목표가 각 클립 내에서만 작동하며, 컨텍스트 간에 행동 의미를 정렬하는 메커니즘을 제공하지 않기 때문에 발생합니다. 우리의 핵심 아이디어는 행동 자체가 관찰되지 않더라도, 그 의미론적 효과는 관찰 가능하며 공유된 참조점으로 사용될 수 있다는 것입니다. 우리는 Seq$Δ$-REPA라는 시퀀스 레벨의 제어-효과 정렬 목표를 제안합니다. 이는 통합된 잠재적 행동을 고정된, 자기 지도 학습 비디오 인코더에서 추출된 시간적 특징 차이와 연결합니다. 이를 바탕으로, 우리는 대규모 비디오 데이터로부터 행동에 조건화된 비디오 월드 모델을 사전 학습시키는 파이프라인인 Olaf-World를 제시합니다. 광범위한 실험 결과, 우리의 방법은 더욱 구조화된 잠재적 행동 공간을 학습하며, 이는 최첨단 모델보다 더 강력한 제로샷 행동 전이와 새로운 제어 인터페이스에 대한 데이터 효율적인 적응을 가능하게 한다는 것을 보여줍니다.
Scaling action-controllable world models is limited by the scarcity of action labels. While latent action learning promises to extract control interfaces from unlabeled video, learned latents often fail to transfer across contexts: they entangle scene-specific cues and lack a shared coordinate system. This occurs because standard objectives operate only within each clip, providing no mechanism to align action semantics across contexts. Our key insight is that although actions are unobserved, their semantic effects are observable and can serve as a shared reference. We introduce Seq$Δ$-REPA, a sequence-level control-effect alignment objective that anchors integrated latent action to temporal feature differences from a frozen, self-supervised video encoder. Building on this, we present Olaf-World, a pipeline that pretrains action-conditioned video world models from large-scale passive video. Extensive experiments demonstrate that our method learns a more structured latent action space, leading to stronger zero-shot action transfer and more data-efficient adaptation to new control interfaces than state-of-the-art baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.