MM-ISTS: 다중 모드 비전-텍스트 LLM을 활용한 불규칙 샘플링 시계열 예측
MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs
불규칙 샘플링 시계열(ISTS)은 다양한 실제 시나리오에서 발견되며, 변수 간의 불균등한 시간 간격으로 비동기적인 관측값을 나타냅니다. 기존의 ISTS 예측 방법은 종종 과거 관측값만을 사용하여 미래 값을 예측하지만, 문맥적 의미와 미세한 시간 패턴을 학습하는 데 한계가 있습니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 비전-텍스트 대규모 언어 모델(LLM)을 활용하여 시간, 시각, 텍스트 모달리티를 연결하는 다중 모드 프레임워크인 MM-ISTS를 제안합니다. MM-ISTS는 새로운 2단계 인코딩 메커니즘을 포함합니다. 특히, 교차 모드 비전-텍스트 인코딩 모듈을 제안하여 유용한 시각적 이미지와 텍스트 데이터를 자동으로 생성하고, 다중 모드 LLM(MLLM)과의 협력을 통해 복잡한 시간 패턴과 포괄적인 문맥적 이해를 가능하게 합니다. 동시에, ISTS 인코딩은 다중 관점 임베딩 융합 및 시간-변수 인코더를 포함하여 과거 ISTS 관측값으로부터 상호 보완적이고 풍부한 시간 특징을 추출합니다. 또한, 학습된 MLLM 토큰을 압축하여 유용한 정보를 추출하고, 계산 비용을 줄이기 위해 적응적 쿼리 기반 특징 추출기를 제안합니다. 더욱이, ISTS, 이미지 및 텍스트 간의 모달리티 격차를 완화하기 위해 모달리티 인지 게이팅을 갖춘 다중 모드 정렬 모듈을 설계했습니다. 실제 데이터에 대한 광범위한 실험을 통해 제안된 솔루션의 효과를 확인했습니다.
Irregularly sampled time series (ISTS) are widespread in real-world scenarios, exhibiting asynchronous observations on uneven time intervals across variables. Existing ISTS forecasting methods often solely utilize historical observations to predict future ones while falling short in learning contextual semantics and fine-grained temporal patterns. To address these problems, we achieve MM-ISTS, a multimodal framework augmented by vision-text large language models, that bridges temporal, visual, and textual modalities, facilitating ISTS forecasting. MM-ISTS encompasses a novel two-stage encoding mechanism. In particular, a cross-modal vision-text encoding module is proposed to automatically generate informative visual images and textual data, enabling the capture of intricate temporal patterns and comprehensive contextual understanding, in collaboration with multimodal LLMs (MLLMs). In parallel, ISTS encoding extracts complementary yet enriched temporal features from historical ISTS observations, including multi-view embedding fusion and a temporal-variable encoder. Further, we propose an adaptive query-based feature extractor to compress the learned tokens of MLLMs, filtering out small-scale useful knowledge, which in turn reduces computational costs. In addition, a multimodal alignment module with modality-aware gating is designed to alleviate the modality gap across ISTS, images, and text. Extensive experiments on real data offer insight into the effectiveness of the proposed solutions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.