2603.16497v1 Mar 17, 2026 cs.LG

고주파 데이터 격차 해소: 시계열 기반 모델 발전을 위한 밀리초 해상도 네트워크 데이터셋

Bridging the High-Frequency Data Gap: A Millisecond-Resolution Network Dataset for Advancing Time Series Foundation Models

T. Pedersen
T. Pedersen
Citations: 978
h-index: 16
Subina Khanal
Subina Khanal
Citations: 54
h-index: 5
Seshu Tirupathi
Seshu Tirupathi
Citations: 169
h-index: 8
Merim Dzaferagic
Merim Dzaferagic
Citations: 352
h-index: 9
Marco Ruffini
Marco Ruffini
Citations: 44
h-index: 5

시계열 기반 모델(TSFM)은 다양한 도메인과 시간 빈도에 적응하기 위해 다양한 실제 데이터셋이 필요합니다. 그러나 현재의 대규모 데이터셋은 주로 초에서 년 단위의 샘플링 간격을 갖는 저주파 시계열 데이터에 집중되어 있어, 고주파 시계열 데이터의 미묘한 특징을 포착하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 운영 중인 5G 무선 환경에서 수집된 밀리초 해상도의 무선 및 교통 데이터를 포함하는 새로운 데이터셋을 소개합니다. 이 데이터셋은 TSFM이 사전 학습 과정에서 고주파 데이터를 활용할 수 있도록 범위를 확장합니다. 또한, 이 데이터셋은 기존의 에너지 및 금융과 같은 일반적인 도메인을 보완하는 새로운 도메인인 무선 네트워크를 제공합니다. 데이터셋은 100밀리초(1단계)에서 9.6초(96단계)에 이르는 예측 지평을 갖는 단기 예측 활용 사례도 제공합니다. 본 데이터셋을 사용하여 기존 머신러닝 모델 및 TSFM을 예측 작업에 대해 벤치마킹한 결과, 대부분의 TSFM 모델 구성이 제로샷 및 미세 조정 환경 모두에서 새로운 데이터 분포에 대해 성능이 저조하다는 것을 확인했습니다. 본 연구는 사전 학습 및 예측 과정에서 고주파 데이터셋을 통합하는 것이 TSFM의 아키텍처, 미세 조정 전략, 일반화 성능 및 실제 응용 분야에서의 견고성을 향상시키는 데 중요하다는 것을 강조합니다.

Original Abstract

Time series foundation models (TSFMs) require diverse, real-world datasets to adapt across varying domains and temporal frequencies. However, current large-scale datasets predominantly focus on low-frequency time series with sampling intervals, i.e., time resolution, in the range of seconds to years, hindering their ability to capture the nuances of high-frequency time series data. To address this limitation, we introduce a novel dataset that captures millisecond-resolution wireless and traffic conditions from an operational 5G wireless deployment, expanding the scope of TSFMs to incorporate high-frequency data for pre-training. Further, the dataset introduces a new domain, wireless networks, thus complementing existing more general domains like energy and finance. The dataset also provides use cases for short-term forecasting, with prediction horizons spanning from 100 milliseconds (1 step) to 9.6 seconds (96 steps). By benchmarking traditional machine learning models and TSFMs on predictive tasks using this dataset, we demonstrate that most TSFM model configurations perform poorly on this new data distribution in both zero-shot and fine-tuned settings. Our work underscores the importance of incorporating high-frequency datasets during pre-training and forecasting to enhance architectures, fine-tuning strategies, generalization, and robustness of TSFMs in real-world applications.

0 Citations
0 Influential
8 Altmetric
40.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!