눈에 보이지 않아도 잊혀지지 않도록: 동적 비디오 세계 모델을 위한 하이브리드 메모리
Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models
비디오 세계 모델은 물리적 세계를 시뮬레이션하는 데 엄청난 잠재력을 보여주었지만, 기존의 메모리 메커니즘은 주로 환경을 정적인 배경으로 취급합니다. 동적인 객체가 시야에서 사라졌다가 다시 나타날 때, 현재의 방법은 종종 객체가 멈추거나 왜곡되거나 사라지는 문제를 겪습니다. 이러한 문제를 해결하기 위해, 우리는 정적인 배경을 정확하게 기록하고 동시에 동적인 객체를 주의 깊게 추적하는 모델을 요구하는 새로운 패러다임인 하이브리드 메모리(Hybrid Memory)를 소개합니다. 이를 통해 시야에서 벗어난 구간에서도 객체의 움직임 연속성을 보장합니다. 이 연구를 촉진하기 위해, 우리는 하이브리드 메모리에 특화된 최초의 대규모 비디오 데이터셋인 HM-World를 구축했습니다. HM-World는 59,000개의 고품질 클립으로 구성되어 있으며, 분리된 카메라 및 객체 경로를 특징으로 합니다. 이 데이터셋에는 17개의 다양한 장면, 49개의 서로 다른 객체, 그리고 하이브리드 일관성을 엄격하게 평가하기 위한 세심하게 설계된 진입-퇴장 이벤트가 포함되어 있습니다. 또한, 우리는 메모리를 토큰으로 압축하고 시공간적 관련성을 기반으로 한 검색 메커니즘을 사용하는 특수 메모리 아키텍처인 HyDRA를 제안합니다. HyDRA는 관련 움직임 신호에 선택적으로 집중함으로써, 숨겨진 객체의 동일성과 움직임을 효과적으로 보존합니다. HM-World에 대한 광범위한 실험 결과, 우리의 방법이 동적 객체 일관성 및 전체 생성 품질 측면에서 최첨단 방법보다 훨씬 우수한 성능을 보이는 것으로 나타났습니다.
Video world models have shown immense potential in simulating the physical world, yet existing memory mechanisms primarily treat environments as static canvases. When dynamic subjects hide out of sight and later re-emerge, current methods often struggle, leading to frozen, distorted, or vanishing subjects. To address this, we introduce Hybrid Memory, a novel paradigm requiring models to simultaneously act as precise archivists for static backgrounds and vigilant trackers for dynamic subjects, ensuring motion continuity during out-of-view intervals. To facilitate research in this direction, we construct HM-World, the first large-scale video dataset dedicated to hybrid memory. It features 59K high-fidelity clips with decoupled camera and subject trajectories, encompassing 17 diverse scenes, 49 distinct subjects, and meticulously designed exit-entry events to rigorously evaluate hybrid coherence. Furthermore, we propose HyDRA, a specialized memory architecture that compresses memory into tokens and utilizes a spatiotemporal relevance-driven retrieval mechanism. By selectively attending to relevant motion cues, HyDRA effectively preserves the identity and motion of hidden subjects. Extensive experiments on HM-World demonstrate that our method significantly outperforms state-of-the-art approaches in both dynamic subject consistency and overall generation quality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.