시계열 모델링을 위한 확률적 트랜스포머의 잠재력 탐색: ST-PT 프레임워크 보고
Exploring the Potential of Probabilistic Transformer for Time Series Modeling: A Report on the ST-PT Framework
확률적 트랜스포머(PT)는 트랜스포머의 자체 어텐션과 피드-포워드 블록이 조건부 랜덤 필드(CRF)에서의 평균 필드 변분 추론(MFVI)과 수학적으로 동등하다는 것을 보여줍니다. 이러한 동등성을 통해 트랜스포머는 블랙박스 신경망이 아닌 프로그래밍 가능한 팩터 그래프가 됩니다. 팩터 그래프의 토폴로지, 팩터의 잠재 함수, 그리고 메시지 전달 일정은 모두 명시적이고 검사 가능한 기본 요소이며, 이를 통해 설계가 가능합니다. PT는 원래 자연어 처리를 위해 개발되었으며, 본 보고서에서는 PT의 시계열 모델링 잠재력을 조사합니다. 먼저, PT의 누락된 채널 축과 단계별 의미의 약점을 보완하기 위해 PT를 공간-시간 확률적 트랜스포머(ST-PT)로 확장하고, ST-PT를 핵심 백본으로 사용합니다. 그런 다음, PT/ST-PT가 팩터 그래프 모델로서 제공하는 세 가지 뚜렷한 특성을 파악하고, 각 특성이 시계열 모델링에 어떻게 활용될 수 있는지 탐구하는 세 가지 연구 질문(RQ)을 도출합니다. RQ1은 팩터 그래프의 토폴로지와 잠재 함수가 직접 프로그래밍 가능한 기본 요소인지, 그리고 데이터 부족 및 노이즈 상황에서 구조적 그래프 수정を通じて ST-PT에 기호 시계열 사전 지식을 주입하는 데 활용될 수 있는지에 대한 질문입니다. RQ2는 CRF의 팩터 행렬이 연산자의 잠재 함수이며, 외부 조건이 이러한 팩터 행렬을 샘플별로 프로그래밍하여 조건부 생성을 수행할 수 있도록 할 수 있는지에 대한 질문입니다. RQ3는 각 MFVI 반복이 팩터 그래프에서의 베이즈 사후 업데이트이며, 이 기능을 통해 잠재 공간 자기회귀(AR) 예측의 숨겨진 상태 변환을 불투명한 MLP가 아닌 체계적인 사후 업데이트로 만들 수 있는지, 그리고 CRF 모델이 자신의 잠재 변수를 AR 모델로 전달하여 누적 오류를 줄일 수 있는지에 대한 질문입니다. 각 연구 질문에 대해 하나의 실험적 연구를 수행했습니다. 이러한 세 가지 연구를 통해 ST-PT는 시계열 모델링을 위한 프로그래밍 가능한 프레임워크로 자리매김합니다.
The Probabilistic Transformer (PT) establishes that the Transformer's self-attention plus its feed-forward block is mathematically equivalent to Mean-Field Variational Inference (MFVI) on a Conditional Random Field (CRF). Under this equivalence the Transformer ceases to be a black-box neural network and becomes a programmable factor graph: graph topology, factor potentials, and the message-passing schedule are all explicit and inspectable primitives that can be engineered. PT was originally developed for natural language and in this report we investigate its potential for time series. We first lift PT into the Spatial-Temporal Probabilistic Transformer (ST-PT) to repair PT's missing channel axis and weak per-step semantics, and adopt ST-PT as a shared cornerstone backbone. We then identify three distinct properties that PT/ST-PT offers as a factor-graph model and derive three Research Questions, one per property, that probe how each property can be exploited in time series: RQ1. The graph topology and potentials are direct programmable primitives. Can this be used to inject symbolic time-series priors into ST-PT through structural graph modifications, especially under data scarcity and noise? RQ2. The CRF's factor matrices are the operator's potentials. Can an external condition program these factor matrices on a per-sample basis, so that conditional generation becomes structural rather than feature-level modulation of a fixed one? RQ3. Each MFVI iteration is a Bayesian posterior update on the factor graph. Can this turn the latent transition of latent-space AutoRegressive (AR) forecasting from an opaque MLP into a principled posterior update, and can a CRF teacher distill its latents into the AR student to counter cumulative error? We give one empirical study per question. Together, these three studies position ST-PT as a programmable framework for time-series modeling.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.