맞춤형 LLM 추론을 위한 과정 검증 가능 사고 데이터 합성 및 스케줄링 기반 시계열 추론
Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning
시계열은 다양한 응용 도메인 전반에 널리 퍼져 있는 데이터 유형으로, 다양한 시계열 과제를 합리적으로 해결하는 것은 오랜 목표였습니다. 최근 대규모 언어 모델(LLM)의 발전, 특히 강화 학습(RL)을 통해 발현된 추론 능력은 긴 사고 사슬(CoT) 추론이 필요한 과제를 해결할 새로운 기회를 열었습니다. 그러나 시계열에 LLM 추론을 활용하는 연구는 훈련을 위해 정교하게 구축된 시계열 CoT 데이터의 부재, 충분히 연구되지 않은 데이터 스케줄링으로 인한 제한된 데이터 효율성, 그리고 시계열 CoT 데이터를 활용하는 데 최적화된 RL 알고리즘의 결여로 인해 아직 초기 단계에 머물러 있습니다. 본 논문에서는 데이터 합성, 데이터 스케줄링, RL 학습을 통해 시계열 추론에 맞춰 LLM을 최적화하는 프레임워크인 VeriTime을 소개합니다. 첫째, 과정 검증이 가능한 주석을 포함한 시계열-텍스트 멀티모달 데이터셋을 구축하는 데이터 합성 파이프라인을 제안합니다. 둘째, 원칙에 입각한 난이도 계층 및 과제 분류 체계에 따라 훈련 샘플을 배치하는 데이터 스케줄링 메커니즘을 설계합니다. 셋째, 검증 가능한 과정 수준의 CoT 데이터를 활용하며 세밀한 다중 목표 보상을 특징으로 하는 2단계 강화 미세 조정을 개발합니다. 광범위한 실험 결과, VeriTime은 다양한 시계열 추론 과제에서 LLM의 성능을 크게 향상시키는 것으로 나타났습니다. 특히, 3B, 4B 규모의 소형 모델이 더 큰 독점적 LLM과 대등하거나 이를 능가하는 추론 능력을 달성할 수 있게 합니다.
Time series is a pervasive data type across various application domains, rendering the reasonable solving of diverse time series tasks a long-standing goal. Recent advances in large language models (LLMs), especially their reasoning abilities unlocked through reinforcement learning (RL), have opened new opportunities for tackling tasks with long Chain-of-Thought (CoT) reasoning. However, leveraging LLM reasoning for time series remains in its infancy, hindered by the absence of carefully curated time series CoT data for training, limited data efficiency caused by underexplored data scheduling, and the lack of RL algorithms tailored for exploiting such time series CoT data. In this paper, we introduce VeriTime, a framework that tailors LLMs for time series reasoning through data synthesis, data scheduling, and RL training. First, we propose a data synthesis pipeline that constructs a TS-text multimodal dataset with process-verifiable annotations. Second, we design a data scheduling mechanism that arranges training samples according to a principled hierarchy of difficulty and task taxonomy. Third, we develop a two-stage reinforcement finetuning featuring fine-grained, multi-objective rewards that leverage verifiable process-level CoT data. Extensive experiments show that VeriTime substantially boosts LLM performance across diverse time series reasoning tasks. Notably, it enables compact 3B, 4B models to achieve reasoning capabilities on par with or exceeding those of larger proprietary LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.