TimeOmni-VL: 시계열 이해 및 생성을 위한 통합 모델
TimeOmni-VL: Unified Models for Time Series Understanding and Generation
최근 시계열 모델링은 수치 생성과 의미론적 이해 사이에 뚜렷한 격차를 보이고 있다. 연구에 따르면 생성 모델은 종종 피상적인 패턴 매칭에 의존하는 반면, 이해 중심 모델은 고충실도의 수치 출력을 생성하는 데 어려움을 겪는다. 통합 멀티모달 모델(UMM)이 비전 분야에서 이러한 격차를 해소하긴 했지만, 시계열 분야에서의 잠재력은 아직 활용되지 않고 있다. 본 논문에서는 다음 두 가지 핵심 혁신을 통해 시계열 이해와 생성을 통합하는 최초의 비전 중심 프레임워크인 TimeOmni-VL을 제안한다: (1) 충실도 보존 시계열-이미지 양방향 매핑(Bi-TSI). 이는 거의 무손실에 가까운 변환을 보장하기 위해 시계열-이미지(TS2I) 및 이미지-시계열(I2TS) 변환을 발전시킨다. (2) 이해 기반 생성. 우리는 두 가지 생성 태스크와 결합되어 시계열 분석에 기반을 둔 6개의 이해 태스크로 구성된 새로운 데이터셋인 TSUMM-Suite를 소개한다. TimeOmni-VL은 보정된 사고의 사슬(Chain-of-Thought)을 바탕으로 시계열 이해를 고충실도 생성을 위한 명시적 제어 신호로 활용하는 최초의 모델이다. 실험을 통해 이러한 통합적 접근 방식이 의미론적 이해와 수치적 정밀도를 모두 크게 향상시켜, 멀티모달 시계열 모델링의 새로운 지평을 확립함을 확인했다.
Recent time series modeling faces a sharp divide between numerical generation and semantic understanding, with research showing that generation models often rely on superficial pattern matching, while understanding-oriented models struggle with high-fidelity numerical output. Although unified multimodal models (UMMs) have bridged this gap in vision, their potential for time series remains untapped. We propose TimeOmni-VL, the first vision-centric framework that unifies time series understanding and generation through two key innovations: (1) Fidelity-preserving bidirectional mapping between time series and images (Bi-TSI), which advances Time Series-to-Image (TS2I) and Image-to-Time Series (I2TS) conversions to ensure near-lossless transformations. (2) Understanding-guided generation. We introduce TSUMM-Suite, a novel dataset consists of six understanding tasks rooted in time series analytics that are coupled with two generation tasks. With a calibrated Chain-of-Thought, TimeOmni-VL is the first to leverage time series understanding as an explicit control signal for high-fidelity generation. Experiments confirm that this unified approach significantly improves both semantic understanding and numerical precision, establishing a new frontier for multimodal time series modeling.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.