일관성에서 상호 보완성으로: 시계열 이해 및 추론을 위한 정렬 및 분리된 다중 모드 학습
From Consistency to Complementarity: Aligned and Disentangled Multi-modal Learning for Time Series Understanding and Reasoning
다중 모드 대규모 언어 모델(MLLM)의 발전은 시계열 이해 및 추론 작업에 영감을 주어, 시계열에 대한 자연어 질의를 가능하게 하고 복잡한 시간적 동역학에 대한 텍스트 분석을 생성합니다. 최근의 시도는 수치 시계열 데이터를 시각화된 그래프와 결합하여, 정확한 값 추론과 시각적 구조 이해를 통해 MLLM의 포괄적인 시계열 이해를 돕습니다. 그러나 효과적인 수치-시각 모드 통합은 여전히 어려운 과제입니다. 이는 모드 간의 미세한 시간 불일치와 공유 의미와 모드별 의미 간의 심각한 얽힘 때문이며, 이는 지역 해석과 상호 보완적인 추론을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 미세한 정렬과 분리된 상호 작용을 통해 강화된 MLLM인 MADI를 제안합니다. MADI는 다음과 같은 특징을 가집니다: (1) 패치 수준 정렬: 이질적인 모드 간의 물리적으로 기반한 미세한 대응 관계를 강제합니다. (2) 이산적 분리된 상호 작용: 모드 공통 의미를 압축된 이산 잠재 변수로 분리하고, 정제된 모드 고유 정보를 적응적으로 시너지 효과를 발생시킵니다. (3) 중요한 토큰 강조: 강력한 추론을 위해 정보적이고 질의 관련 신호를 강조합니다. 합성 및 실제 데이터 벤치마크에서의 실험 결과, MADI는 범용 LLM 및 시계열 전문 MLLM보다 일관되게 우수한 성능을 보였습니다.
Advances in multi-modal large language models (MLLMs) have inspired time series understanding and reasoning tasks, that enable natural language querying over time series, producing textual analyses of complex temporal dynamics. Recent attempts hybridize numerical time series with their visualized plots, facilitating precise value reasoning and visual structure comprehension for comprehensive time series understanding of MLLMs. However, effective numerical-visual modality integration remains challenging due to fine-grained temporal misalignment across modalities and severe entanglement between shared and modality-specific semantics, which hinder localized interpretation and complementary reasoning. To address these issues, we propose MADI, a multi-modal LLM enhanced with fine-grained alignment and disentangled interaction, featuring (1) Patch-level Alignment, which enforces physically grounded fine-grained correspondence across heterogeneous modalities, (2) Discrete Disentangled Interaction, which separates modality-common semantics into compact discrete latents and adaptively synergizes the purified modality-unique information, and (3) Critical-token Highlighting, which emphasizes informative, query-relevant signals for robust reasoning. Experiments on synthetic and real-world benchmarks show that MADI consistently outperforms general-purpose LLMs and time-series-specialized MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.