2603.04791v1 Mar 05, 2026 cs.AI

Timer-S1: 시퀀스 스케일링을 활용한 10억 규모의 시계열 기반 모델

Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

Shiyu Wang
Shiyu Wang
Citations: 8,236
h-index: 4
Yang Xiang
Yang Xiang
Citations: 5
h-index: 1
Zhou Ye
Zhou Ye
Citations: 323
h-index: 3
Jianmin Wang
Jianmin Wang
Citations: 34
h-index: 2
Mingsheng Long
Mingsheng Long
Citations: 12,802
h-index: 34
Xin Su
Xin Su
Citations: 34
h-index: 3
Haoran Zhang
Haoran Zhang
Citations: 131
h-index: 4
Haixuan Liu
Haixuan Liu
Citations: 11
h-index: 1
Yuxuan Wang
Yuxuan Wang
Citations: 580
h-index: 5
Yong Liu
Yong Liu
Citations: 2,444
h-index: 9

본 논문에서는 83억 개의 전체 파라미터, 토큰당 0.75억 개의 활성화 파라미터, 그리고 11.5K의 컨텍스트 길이를 갖는 강력한 Mixture-of-Experts (MoE) 시계열 기반 모델인 Timer-S1을 소개합니다. 기존의 사전 훈련된 시계열 기반 모델의 확장성 문제를 해결하기 위해, 모델 아키텍처, 데이터셋, 그리고 훈련 파이프라인의 세 가지 측면에서 시퀀스 스케일링을 적용했습니다. Timer-S1은 시퀀스 예측(STP)을 위한 희소 TimeMoE 블록과 범용 TimeSTP 블록을 통합하여, 예측의 시퀀스 특성을 반영하는 범용적인 훈련 목표를 달성합니다. 제안된 패러다임은 시퀀스 연산을 도입하여 장기 예측 성능을 향상시키면서, 표준적인 다음 토큰 예측 방식에서 발생하는 비용이 많이 드는 롤링 스타일 추론 및 눈에 띄는 오류 누적을 방지합니다. 고품질이며 편향되지 않은 훈련 데이터셋을 확보하기 위해, 1조 개의 시계열 데이터를 포함하는 TimeBench 데이터셋을 구축하고, 예측 편향을 완화하기 위해 세심한 데이터 증강 기법을 적용했습니다. 또한, 단기 및 장기 컨텍스트 성능을 향상시키기 위해, 지속적인 사전 훈련 및 장기 컨텍스트 확장을 포함하는 후처리 단계를 도입했습니다. 대규모 GIFT-Eval 리더보드에서 Timer-S1은 최첨단 예측 성능을 달성했으며, 사전 훈련된 모델로서 최고의 MASE 및 CRPS 점수를 기록했습니다. Timer-S1은 향후 연구를 촉진하기 위해 공개될 예정입니다.

Original Abstract

We introduce Timer-S1, a strong Mixture-of-Experts (MoE) time series foundation model with 8.3B total parameters, 0.75B activated parameters for each token, and a context length of 11.5K. To overcome the scalability bottleneck in existing pre-trained time series foundation models, we perform Serial Scaling in three dimensions: model architecture, dataset, and training pipeline. Timer-S1 integrates sparse TimeMoE blocks and generic TimeSTP blocks for Serial-Token Prediction (STP), a generic training objective that adheres to the serial nature of forecasting. The proposed paradigm introduces serial computations to improve long-term predictions while avoiding costly rolling-style inference and pronounced error accumulation in the standard next-token prediction. Pursuing a high-quality and unbiased training dataset, we curate TimeBench, a corpus with one trillion time points, and apply meticulous data augmentation to mitigate predictive bias. We further pioneer a post-training stage, including continued pre-training and long-context extension, to enhance short-term and long-context performance. Evaluated on the large-scale GIFT-Eval leaderboard, Timer-S1 achieves state-of-the-art forecasting performance, attaining the best MASE and CRPS scores as a pre-trained model. Timer-S1 will be released to facilitate further research.

0 Citations
0 Influential
17 Altmetric
85.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!