2602.07830v1 Feb 08, 2026 cs.AI

맞춤형 LLM 추론을 위한 과정 검증 가능 사고 데이터 합성 및 스케줄링 기반 시계열 추론

Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning

Jiahui Zhou
Jiahui Zhou
Citations: 6
h-index: 1
Dan Li
Dan Li
Citations: 11
h-index: 2
Erli Meng
Erli Meng
Citations: 8
h-index: 2
Lin Li
Lin Li
Citations: 5
h-index: 1
Zhuomin Chen
Zhuomin Chen
Citations: 5
h-index: 1
Jian Lou
Jian Lou
Citations: 5
h-index: 1
See-Kiong Ng
See-Kiong Ng
Citations: 6
h-index: 1
Boxin Li
Boxin Li
Xiaomi AI lab
Citations: 18
h-index: 3
Xiao Zhang
Xiao Zhang
Citations: 229
h-index: 6

시계열은 다양한 응용 도메인 전반에 널리 퍼져 있는 데이터 유형으로, 다양한 시계열 과제를 합리적으로 해결하는 것은 오랜 목표였습니다. 최근 대규모 언어 모델(LLM)의 발전, 특히 강화 학습(RL)을 통해 발현된 추론 능력은 긴 사고 사슬(CoT) 추론이 필요한 과제를 해결할 새로운 기회를 열었습니다. 그러나 시계열에 LLM 추론을 활용하는 연구는 훈련을 위해 정교하게 구축된 시계열 CoT 데이터의 부재, 충분히 연구되지 않은 데이터 스케줄링으로 인한 제한된 데이터 효율성, 그리고 시계열 CoT 데이터를 활용하는 데 최적화된 RL 알고리즘의 결여로 인해 아직 초기 단계에 머물러 있습니다. 본 논문에서는 데이터 합성, 데이터 스케줄링, RL 학습을 통해 시계열 추론에 맞춰 LLM을 최적화하는 프레임워크인 VeriTime을 소개합니다. 첫째, 과정 검증이 가능한 주석을 포함한 시계열-텍스트 멀티모달 데이터셋을 구축하는 데이터 합성 파이프라인을 제안합니다. 둘째, 원칙에 입각한 난이도 계층 및 과제 분류 체계에 따라 훈련 샘플을 배치하는 데이터 스케줄링 메커니즘을 설계합니다. 셋째, 검증 가능한 과정 수준의 CoT 데이터를 활용하며 세밀한 다중 목표 보상을 특징으로 하는 2단계 강화 미세 조정을 개발합니다. 광범위한 실험 결과, VeriTime은 다양한 시계열 추론 과제에서 LLM의 성능을 크게 향상시키는 것으로 나타났습니다. 특히, 3B, 4B 규모의 소형 모델이 더 큰 독점적 LLM과 대등하거나 이를 능가하는 추론 능력을 달성할 수 있게 합니다.

Original Abstract

Time series is a pervasive data type across various application domains, rendering the reasonable solving of diverse time series tasks a long-standing goal. Recent advances in large language models (LLMs), especially their reasoning abilities unlocked through reinforcement learning (RL), have opened new opportunities for tackling tasks with long Chain-of-Thought (CoT) reasoning. However, leveraging LLM reasoning for time series remains in its infancy, hindered by the absence of carefully curated time series CoT data for training, limited data efficiency caused by underexplored data scheduling, and the lack of RL algorithms tailored for exploiting such time series CoT data. In this paper, we introduce VeriTime, a framework that tailors LLMs for time series reasoning through data synthesis, data scheduling, and RL training. First, we propose a data synthesis pipeline that constructs a TS-text multimodal dataset with process-verifiable annotations. Second, we design a data scheduling mechanism that arranges training samples according to a principled hierarchy of difficulty and task taxonomy. Third, we develop a two-stage reinforcement finetuning featuring fine-grained, multi-objective rewards that leverage verifiable process-level CoT data. Extensive experiments show that VeriTime substantially boosts LLM performance across diverse time series reasoning tasks. Notably, it enables compact 3B, 4B models to achieve reasoning capabilities on par with or exceeding those of larger proprietary LLMs.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!