AnchorWeave: 검색된 지역 공간 기억을 활용한 일관성 있는 비디오 생성
AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
카메라 제어가 가능한 비디오 생성에서 장시간 동안 공간적 세계 일관성을 유지하는 것은 중요한 과제입니다. 기존의 메모리 기반 접근 방식은 종종 재구성된 3D 장면을 기반으로 비디오를 생성하며, 이 과정에서 생성 과정을 제어하기 위해 과거의 3D 형상으로부터 앵커 비디오를 렌더링합니다. 그러나 여러 시점에서 3D 장면을 재구성하는 것은 필연적으로 시점 간 불일치를 발생시키는데, 이는 자세 및 깊이 추정 오류로 인해 동일한 표면이 서로 다른 3D 위치에서 재구성되기 때문입니다. 이러한 불일치들은 융합될 때 노이즈가 많은 3D 형상으로 누적되어, 생성 과정을 제어하는 신호를 방해하고 생성 품질을 저하시킵니다. 본 연구에서는 단일한 불일치된 글로벌 메모리 대신 여러 개의 정제된 지역 3D 형상 메모리를 사용하고, 이들 간의 시점 간 불일치를 조정하는 메모리 강화 비디오 생성 프레임워크인 AnchorWeave를 제안합니다. AnchorWeave는 목표 경로와 일치하는 지역 메모리를 검색하고, 선택된 지역 메모리들을 생성 과정 중 멀티-앵커 위빙 컨트롤러를 통해 통합합니다. 광범위한 실험 결과, AnchorWeave는 장기적인 장면 일관성을 크게 향상시키면서도 우수한 시각적 품질을 유지함을 보여줍니다. 또한, 추가적인 분석 연구를 통해 지역 3D 형상 기반 제어, 멀티-앵커 제어, 그리고 커버리지 기반 검색의 효과를 검증합니다.
Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.