4차원 시공간 임베딩을 활용한 자기 지도 학습 기반 다중 모드 세계 모델
Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding
본 논문에서는 지구 전체 규모의 4차원 시공간 위치 인코더인 Earth4D를 포함하는 자기 지도 학습 기반 다중 모드 세계 모델인 DeepEarth를 소개합니다. Earth4D는 3차원 다중 해상도 해시 인코딩을 확장하여 시간 정보를 포함하며, 이를 통해 센티미터, 밀리초 단위의 정확도로 수백 년 동안 지구 전체를 효율적으로 모델링할 수 있습니다. 다중 모드 인코더(예: 시각-언어 모델)는 Earth4D 임베딩과 결합되어 마스킹된 재구성을 통해 학습됩니다. 우리는 Earth4D가 생태 예측 벤치마크에서 최첨단 성능을 달성하여 표현력을 입증했습니다. 학습 가능한 해시 프로빙을 사용하는 Earth4D는 훨씬 더 많은 데이터로 사전 훈련된 다중 모드 기반 모델보다 우수한 성능을 보입니다. 오픈 소스 코드에 액세스하고 모델을 다운로드하려면 다음 주소를 참조하십시오: https://github.com/legel/deepearth
We present DeepEarth, a self-supervised multi-modal world model with Earth4D, a novel planetary-scale 4D space-time positional encoder. Earth4D extends 3D multi-resolution hash encoding to include time, efficiently scaling across the planet over centuries with sub-meter, sub-second precision. Multi-modal encoders (e.g. vision-language models) are fused with Earth4D embeddings and trained via masked reconstruction. We demonstrate Earth4D's expressive power by achieving state-of-the-art performance on an ecological forecasting benchmark. Earth4D with learnable hash probing surpasses a multi-modal foundation model pre-trained on substantially more data. Access open source code and download models at: https://github.com/legel/deepearth
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.