PluRel: 합성 데이터가 관계 기반 모델의 확장 법칙을 가능하게 하다
PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models
관계 기반 모델(RFM)은 복잡한 다중 테이블 데이터베이스에서 학습하여 데이터 기반 의사 결정을 지원합니다. 그러나 이러한 모델을 훈련하는 데 필요한 다양한 관계형 데이터베이스는 개인 정보 보호 제약으로 인해 공개되는 경우가 드뭅니다. 임의의 크기의 합성 테이블 데이터를 생성하는 방법은 있지만, 다중 테이블 생성을 위해 스키마 구조와 주요-외래 키 연결성을 통합하는 것은 여전히 어려운 과제입니다. 본 논문에서는 처음부터 다중 테이블 관계형 데이터베이스를 합성할 수 있는 프레임워크인 PluRel을 소개합니다. PluRel은 단계별로 (1) 방향 그래프를 사용하여 스키마를 모델링하고, (2) 양방향 그래프를 사용하여 테이블 간의 주요-외래 키 연결성을 모델링하며, (3) 조건부 인과 메커니즘을 사용하여 테이블 내의 특성 분포를 모델링합니다. 이러한 설계 공간은 다양한 데이터베이스를 합성할 수 있도록 지원하며, 동시에 계산적으로 효율적입니다. PluRel을 사용하여 처음으로 (1) RFM 사전 훈련 손실이 합성 데이터베이스의 수와 총 사전 훈련 토큰 수에 대해 거듭제곱 법칙으로 증가한다는 것을 관찰했으며, (2) 합성 데이터베이스의 수를 늘리면 실제 데이터베이스에 대한 일반화 성능이 향상되고, (3) 합성 데이터로 사전 훈련된 모델은 실제 데이터베이스에 대한 추가 사전 훈련을 위한 강력한 기본 모델을 제공한다는 것을 확인했습니다. 전반적으로, 본 논문의 프레임워크와 결과는 합성 데이터 스케일링이 RFM에 대한 유망한 패러다임임을 보여줍니다.
Relational Foundation Models (RFMs) facilitate data-driven decision-making by learning from complex multi-table databases. However, the diverse relational databases needed to train such models are rarely public due to privacy constraints. While there are methods to generate synthetic tabular data of arbitrary size, incorporating schema structure and primary--foreign key connectivity for multi-table generation remains challenging. Here we introduce PluRel, a framework to synthesize multi-tabular relational databases from scratch. In a step-by-step fashion, PluRel models (1) schemas with directed graphs, (2) inter-table primary-foreign key connectivity with bipartite graphs, and, (3) feature distributions in tables via conditional causal mechanisms. The design space across these stages supports the synthesis of a wide range of diverse databases, while being computationally lightweight. Using PluRel, we observe for the first time that (1) RFM pretraining loss exhibits power-law scaling with the number of synthetic databases and total pretraining tokens, (2) scaling the number of synthetic databases improves generalization to real databases, and (3) synthetic pretraining yields strong base models for continued pretraining on real databases. Overall, our framework and results position synthetic data scaling as a promising paradigm for RFMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.