2601.14968v1 Jan 21, 2026 cs.LG

InstructTime++: 암묵적 특징 강화 기반 다중 모드 언어 모델링을 통한 시계열 분류

InstructTime++: Time Series Classification with Multimodal Language Modeling via Implicit Feature Enhancement

Xiaoyu Tao
Xiaoyu Tao
Citations: 90
h-index: 6
Mingyue Cheng
Mingyue Cheng
Citations: 1,164
h-index: 17
Enhong Chen
Enhong Chen
Citations: 443
h-index: 11
Huajian Zhang
Huajian Zhang
Citations: 2
h-index: 1
Qi Liu
Qi Liu
Citations: 226
h-index: 10

대부분의 기존 시계열 분류 방법은 입력 시퀀스를 직접 one-hot 인코딩된 클래스 레이블로 매핑하는 판별적 패러다임을 채택합니다. 이러한 패러다임은 효과적이지만, 문맥적 특징을 통합하는 데 어려움을 겪으며 클래스 간의 의미적 관계를 파악하지 못합니다. 이러한 제한 사항을 해결하기 위해, 시계열 분류를 다중 모드 생성 작업으로 재구성하는 새로운 프레임워크인 InstructTime을 제안합니다. 구체적으로, 연속적인 숫자 시퀀스, 문맥적 텍스트 특징, 그리고 작업 지침을 다중 모드 입력으로 처리하고, 튜닝된 언어 모델을 사용하여 클래스 레이블을 텍스트 출력으로 생성합니다. 모달리티 간의 격차를 해소하기 위해, InstructTime은 연속적인 시퀀스를 이산적인 시간 토큰으로 변환하는 시계열 이산화 모듈을 도입하며, 또한 교차 모드 표현 정렬을 향상시키기 위해 정렬 투영 레이어와 생성적 자기 지도 학습 사전 훈련 전략을 사용합니다. 이러한 프레임워크를 기반으로, InstructTime++은 언어 모델의 제한적인 유도 편향을 보완하기 위해 암묵적 특징 모델링을 통합하여 InstructTime을 확장합니다. InstructTime++은 통계적 특징 추출 및 비전-언어 기반 이미지 캡셔닝을 포함하여 원시 시계열 및 문맥적 입력에서 유용한 암묵적 패턴을 추출하기 위한 특수 도구 키트를 활용하고, 이를 원활하게 통합하기 위해 텍스트 설명으로 변환합니다. 여러 벤치마크 데이터 세트에 대한 광범위한 실험 결과는 InstructTime++의 우수한 성능을 입증합니다.

Original Abstract

Most existing time series classification methods adopt a discriminative paradigm that maps input sequences directly to one-hot encoded class labels. While effective, this paradigm struggles to incorporate contextual features and fails to capture semantic relationships among classes. To address these limitations, we propose InstructTime, a novel framework that reformulates time series classification as a multimodal generative task. Specifically, continuous numerical sequences, contextual textual features, and task instructions are treated as multimodal inputs, while class labels are generated as textual outputs by tuned language models. To bridge the modality gap, InstructTime introduces a time series discretization module that converts continuous sequences into discrete temporal tokens, together with an alignment projection layer and a generative self-supervised pre-training strategy to enhance cross-modal representation alignment. Building upon this framework, we further propose InstructTime++, which extends InstructTime by incorporating implicit feature modeling to compensate for the limited inductive bias of language models. InstructTime++ leverages specialized toolkits to mine informative implicit patterns from raw time series and contextual inputs, including statistical feature extraction and vision-language-based image captioning, and translates them into textual descriptions for seamless integration. Extensive experiments on multiple benchmark datasets demonstrate the superior performance of InstructTime++.

1 Citations
0 Influential
8.5 Altmetric
43.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!