인터넷 비디오의 약한 지도 학습을 통한 3차원 기하학적 기초 모델의 확장 가능한 적응
Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video
기하학적 기초 모델은 3차원 재구성에 유망한 가능성을 보이지만, 다양하고 대규모의 3차원 어노테이션 부족으로 인해 발전이 제한적입니다. 인터넷 비디오는 사실상 무한한 원시 데이터를 제공하지만, 정밀한 3차원 정보의 부재와 관찰 노이즈로 인해 기하학적 학습을 위한 확장 가능한 자원으로 활용하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 원시 비디오 스트림으로부터 기하학적 기초 모델을 확장적으로 적응시키는 프레임워크인 SAGE를 제안합니다. SAGE는 계층적 마이닝 파이프라인을 사용하여 비디오를 학습 트래젝토리로 변환하고 하이브리드 형태의 지도 학습을 수행합니다. (1) 정보적인 학습 트래젝토리 선택; (2) SfM 포인트 클라우드를 이용한 희소한 기하학적 앵커링을 통해 전역적인 구조적 지침 제공; (3) 3차원 가우시안 렌더링을 통한 밀집된 미분 가능한 일관성 유지로 다중 뷰 제약 조건 부여. 또한, 파국적인 망각을 방지하기 위해 앵커 데이터를 활용한 정규화 전략을 도입했습니다. 광범위한 실험 결과, SAGE는 기존 최첨단 모델에 비해 7Scenes, TUM-RGBD, Matterport3D와 같은 알려지지 않은 벤치마크에서 Chamfer Distance를 20-42%까지 감소시켜 제로샷 일반화 성능을 크게 향상시킵니다. SAGE는 인터넷 비디오를 통해 기하학적 기초 모델을 적응시키는 선구적인 연구이며, 범용적인 3차원 학습을 위한 확장 가능한 패러다임을 제시합니다.
Geometric foundation models show promise in 3D reconstruction, yet their progress is severely constrained by the scarcity of diverse, large-scale 3D annotations. While Internet videos offer virtually unlimited raw data, utilizing them as a scaling source for geometric learning is challenging due to the absence of ground-truth geometry and the presence of observational noise. To address this, we propose SAGE, a framework for Scalable Adaptation of GEometric foundation models from raw video streams. SAGE leverages a hierarchical mining pipeline to transform videos into training trajectories and hybrid supervision: (1) Informative training trajectory selection; (2) Sparse Geometric Anchoring via SfM point clouds for global structural guidance; and (3) Dense Differentiable Consistency via 3D Gaussian rendering for multi-view constraints. To prevent catastrophic forgetting, we introduce a regularization strategy using anchor data. Extensive experiments show that SAGE significantly enhances zero-shot generalization, reducing Chamfer Distance by 20-42% on unseen benchmarks (7Scenes, TUM-RGBD, Matterport3D) compared to state-of-the-art baselines. To our knowledge, SAGE pioneers the adaptation of geometric foundation models via Internet video, establishing a scalable paradigm for general-purpose 3D learning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.