트랜스포머는 본질적으로 인과 관계 학습 모델이다
Transformer Is Inherently a Causal Learner
본 논문에서는 오토리거시브 방식으로 학습된 트랜스포머가 학습된 표현 내에 시간 지연 인과 관계 구조를 자연스럽게 내재하고 있음을 밝힙니다. 다변량 시계열 데이터에서 미래 값을 예측할 때, 트랜스포머의 출력에 대한 과거 입력의 그래디언트 민감도는 명시적인 인과 관계 목표나 구조적 제약 없이도 근본적인 인과 그래프를 직접적으로 복원합니다. 우리는 표준 식별 가능 조건 하에서 이러한 연결을 이론적으로 증명하고, 집계된 그래디언트 속성을 활용한 실용적인 추출 방법을 개발했습니다. 비선형 동역학, 장기 의존성 및 비정상 시스템과 같은 어려운 경우에, 이 접근 방식은 최첨단 발견 알고리즘보다 훨씬 뛰어난 성능을 보이며, 특히 데이터 이질성이 증가할수록 기존 방법이 부족한 확장성을 보여줍니다. 즉, 데이터 양과 이질성이 증가함에 따라 인과 관계 정확도가 향상되는 경향이 있습니다. 이러한 통합적인 관점은 인과 관계 발견이 기반 모델의 관점에서 작동하고, 기반 모델이 인과 관계의 관점에서 해석 가능성과 향상을 얻는 미래 패러다임의 토대를 마련합니다.
We reveal that transformers trained in an autoregressive manner naturally encode time-delayed causal structures in their learned representations. When predicting future values in multivariate time series, the gradient sensitivities of transformer outputs with respect to past inputs directly recover the underlying causal graph, without any explicit causal objectives or structural constraints. We prove this connection theoretically under standard identifiability conditions and develop a practical extraction method using aggregated gradient attributions. On challenging cases such as nonlinear dynamics, long-term dependencies, and non-stationary systems, this approach greatly surpasses the performance of state-of-the-art discovery algorithms, especially as data heterogeneity increases, exhibiting scaling potential where causal accuracy improves with data volume and heterogeneity, a property traditional methods lack. This unifying view lays the groundwork for a future paradigm where causal discovery operates through the lens of foundation models, and foundation models gain interpretability and enhancement through the lens of causality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.