Infinite-World: 자세 정보 없이 계층적 메모리를 활용하여 1000 프레임 이상의 시야 범위를 갖는 인터랙티브 세계 모델 확장
Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory
본 논문에서는 복잡한 실세계 환경에서 1000 프레임 이상의 일관성 있는 시각적 기억을 유지할 수 있는 강력한 인터랙티브 세계 모델인 Infinite-World를 제안합니다. 기존의 세계 모델은 완벽한 Ground-Truth 데이터가 있는 합성 데이터에서 효율적으로 최적화될 수 있지만, 노이즈가 많은 자세 추정 및 시점 재방문의 부족으로 인해 실제 비디오 데이터에 대한 효과적인 학습 방법을 제공하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 먼저 계층적 자세 정보 없이 작동하는 메모리 압축기(HPMC)를 소개합니다. HPMC는 과거의 정보를 고정된 용량으로 압축하며, 압축기와 생성 모델을 공동으로 최적화함으로써, 모델은 명시적인 기하학적 사전 정보 없이도 제한된 계산 비용으로 과거의 정보를 활용하여 생성할 수 있도록 합니다. 또한, 우리는 불확실성을 고려한 액션 라벨링 모듈을 제안합니다. 이 모듈은 연속적인 움직임을 트리-스테이트 논리로 이산화하여, 원시 비디오 데이터의 활용도를 극대화하고, 노이즈가 많은 경로로부터 결정적인 액션 공간이 손상되는 것을 방지하여, 견고한 액션-반응 학습을 보장합니다. 더불어, 예비 실험 결과를 바탕으로, 30분 길이의 간결한 데이터셋을 사용하여 Revisit-Dense Finetuning 전략을 적용하여 모델의 장거리 루프-클로저 기능을 효율적으로 활성화합니다. 객관적인 지표 및 사용자 연구를 포함한 광범위한 실험 결과는 Infinite-World가 시각적 품질, 액션 제어성 및 공간적 일관성 측면에서 우수한 성능을 달성한다는 것을 보여줍니다.
We propose Infinite-World, a robust interactive world model capable of maintaining coherent visual memory over 1000+ frames in complex real-world environments. While existing world models can be efficiently optimized on synthetic data with perfect ground-truth, they lack an effective training paradigm for real-world videos due to noisy pose estimations and the scarcity of viewpoint revisits. To bridge this gap, we first introduce a Hierarchical Pose-free Memory Compressor (HPMC) that recursively distills historical latents into a fixed-budget representation. By jointly optimizing the compressor with the generative backbone, HPMC enables the model to autonomously anchor generations in the distant past with bounded computational cost, eliminating the need for explicit geometric priors. Second, we propose an Uncertainty-aware Action Labeling module that discretizes continuous motion into a tri-state logic. This strategy maximizes the utilization of raw video data while shielding the deterministic action space from being corrupted by noisy trajectories, ensuring robust action-response learning. Furthermore, guided by insights from a pilot toy study, we employ a Revisit-Dense Finetuning Strategy using a compact, 30-minute dataset to efficiently activate the model's long-range loop-closure capabilities. Extensive experiments, including objective metrics and user studies, demonstrate that Infinite-World achieves superior performance in visual quality, action controllability, and spatial consistency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.