2602.20677v1 Feb 24, 2026 cs.LG

UrbanFM: 도시 공간-시간 기반 모델의 확장

UrbanFM: Scaling Urban Spatio-Temporal Foundation Models

Yuqian Wu
Yuqian Wu
Citations: 5
h-index: 1
Wei Chen
Wei Chen
Citations: 405
h-index: 10
Jun-Lin Chen
Jun-Lin Chen
Citations: 0
h-index: 0
Xiaofan Zhou
Xiaofan Zhou
Citations: 29
h-index: 1
Yuxuan Liang
Yuxuan Liang
Citations: 241
h-index: 4

도시 시스템은 역동적이고 복잡한 시스템으로서, 인간의 이동성과 도시 진화를 나타내는 기본적인 원리를 담고 있는 공간-시간 데이터 스트림을 지속적으로 생성합니다. 과학 분야의 인공지능은 유전체학 및 기상학 분야에서 파운데이션 모델의 혁신적인 힘을 보여주었지만, 도시 컴퓨팅은 특정 지역이나 작업에 과적합되어 일반화 능력을 저해하는 "시나리오별" 모델들로 인해 여전히 단편화되어 있습니다. 이러한 격차를 해소하고 도시 시스템을 위한 공간-시간 파운데이션 모델을 발전시키기 위해, 우리는 확장(scaling)을 핵심 관점으로 채택하고, 무엇을 확장해야 하는지, 그리고 어떻게 확장해야 하는지에 대한 두 가지 주요 질문을 체계적으로 조사합니다. 기본적인 원리 분석을 바탕으로, 우리는 이질성(heterogeneity), 상관관계(correlation), 그리고 동역학(dynamics)이라는 세 가지 중요한 차원을 파악하고, 이러한 원칙을 도시 공간-시간 데이터의 기본적인 과학적 특성과 연결합니다. 구체적으로, 데이터 확장을 통해 이질성을 해결하기 위해, 우리는 WorldST를 구축했습니다. 이 빌리언 규모의 데이터 코퍼스는 전 세계 100개 이상의 도시에서 수집된 교통 흐름 및 속도와 같은 다양한 물리적 신호를 통일된 데이터 형식으로 표준화합니다. 상관관계를 모델링하기 위한 계산 확장(computation scaling)을 가능하게 하기 위해, 우리는 MiniST 단위를 도입했습니다. MiniST는 연속적인 공간-시간 필드를 학습 가능한 계산 단위로 분할하여 그리드 기반 및 센서 기반 관찰의 표현을 통일하는 새로운 분할 메커니즘입니다. 마지막으로, 아키텍처 확장을 통해 동역학을 해결하기 위해, 우리는 제한적인 사전 지식(inductive biases)을 가진 미니멀한 자기 주의(self-attention) 아키텍처인 UrbanFM을 제안합니다. UrbanFM은 방대한 데이터로부터 동적인 공간-시간 의존성을 자율적으로 학습하도록 설계되었습니다. 또한, 현재까지 가장 큰 규모의 도시 공간-시간 벤치마크인 EvalST를 구축했습니다. 광범위한 실험 결과, UrbanFM은 아직 보지 못한 도시와 작업에 대해 놀라운 제로샷 일반화 성능을 보여주며, 대규모 도시 공간-시간 파운데이션 모델로 나아가는 중요한 첫걸음을 보여줍니다.

Original Abstract

Urban systems, as dynamic complex systems, continuously generate spatio-temporal data streams that encode the fundamental laws of human mobility and city evolution. While AI for Science has witnessed the transformative power of foundation models in disciplines like genomics and meteorology, urban computing remains fragmented due to "scenario-specific" models, which are overfitted to specific regions or tasks, hindering their generalizability. To bridge this gap and advance spatio-temporal foundation models for urban systems, we adopt scaling as the central perspective and systematically investigate two key questions: what to scale and how to scale. Grounded in first-principles analysis, we identify three critical dimensions: heterogeneity, correlation, and dynamics, aligning these principles with the fundamental scientific properties of urban spatio-temporal data. Specifically, to address heterogeneity through data scaling, we construct WorldST. This billion-scale corpus standardizes diverse physical signals, such as traffic flow and speed, from over 100 global cities into a unified data format. To enable computation scaling for modeling correlations, we introduce the MiniST unit, a novel split mechanism that discretizes continuous spatio-temporal fields into learnable computational units to unify representations of grid-based and sensor-based observations. Finally, addressing dynamics via architecture scaling, we propose UrbanFM, a minimalist self-attention architecture designed with limited inductive biases to autonomously learn dynamic spatio-temporal dependencies from massive data. Furthermore, we establish EvalST, the largest-scale urban spatio-temporal benchmark to date. Extensive experiments demonstrate that UrbanFM achieves remarkable zero-shot generalization across unseen cities and tasks, marking a pivotal first step toward large-scale urban spatio-temporal foundation models.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!