2603.03805v1 Mar 04, 2026 cs.LG

구조적 사전 지식을 활용한 합성 데이터 기반 관계 추론 모델

Relational In-Context Learning via Synthetic Pre-training with Structural Prior

Jiaxuan You
Jiaxuan You
Citations: 14,829
h-index: 23
Yanbo Wang
Yanbo Wang
Citations: 57
h-index: 5
Muhan Zhang
Muhan Zhang
Citations: 15
h-index: 1
Chuan Shi
Chuan Shi
Citations: 34
h-index: 3

관계형 데이터베이스(RDB)는 현대 비즈니스의 핵심이지만, 텍스트나 이미지 분야에 비해 동등한 기초 모델이 부족합니다. 주요 문제는 고품질 RDB가 비공개적이고, 희소하며, 구조적으로 이질적이라는 점으로, 이는 인터넷 규모의 사전 학습을 어렵게 만듭니다. 이러한 데이터 부족 문제를 해결하기 위해, 우리는 순수하게 합성 데이터로 학습된 최초의 관계형 기초 모델인 $ extbf{RDB-PFN}$을 소개합니다. 구조적 인과 모델(SCM)에서 생성된 합성 데이터를 활용하여 단일 테이블에 대한 추론을 가능하게 하는 Prior-Data Fitted Networks (PFN)에서 영감을 받아, 우리는 $ extbf{관계형 사전 생성기(Relational Prior Generator)}$를 설계하여, 처음부터 무한한 스트림의 다양한 RDB를 생성합니다. $ extbf{2백만 개}$ 이상의 합성 단일 테이블 및 관계형 작업을 사용하여 사전 학습을 수행한 RDB-PFN은 진정한 $ extbf{인-컨텍스트 학습(in-context learning)}$을 통해 새로운 데이터베이스에 즉시 적응할 수 있습니다. 실험 결과, RDB-PFN은 19개의 실제 관계형 예측 작업에서 뛰어난 성능을 보이며, 그래프 기반 및 단일 테이블 기초 모델 기준 성능을 능가합니다(동일한 DFS 선형화 입력을 사용). 또한, RDB-PFN은 경량화된 아키텍처와 빠른 추론 속도를 제공합니다. 코드: https://github.com/MuLabPKU/RDBPFN

Original Abstract

Relational Databases (RDBs) are the backbone of modern business, yet they lack foundation models comparable to those in text or vision. A key obstacle is that high-quality RDBs are private, scarce and structurally heterogeneous, making internet-scale pre-training infeasible. To overcome this data scarcity, We introduce $\textbf{RDB-PFN}$, the first relational foundation model trained purely via $\textbf{synthetic data}$. Inspired by Prior-Data Fitted Networks (PFNs) where synthetic data generated from Structural Causal Models (SCMs) enables reasoning on single tables, we design a $\textbf{Relational Prior Generator}$ to create an infinite stream of diverse RDBs from scratch. Pre-training on $\textbf{over 2 million}$ synthetic single-table and relational tasks, RDB-PFN learns to adapt to any new database instantly via genuine $\textbf{in-context learning}$. Experiments verify RDB-PFN achieves strong few-shot performance on 19 real-world relational prediction tasks, outperforming graph-based and single-table foundation-model baselines (given the same DFS-linearized inputs), while using a lightweight architecture and fast inference. The code is available at https://github.com/MuLabPKU/RDBPFN

0 Citations
0 Influential
34.9657359028 Altmetric
174.8 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!