2604.12596v1 Apr 14, 2026 cs.LG

KumoRFM-2: 관계 학습을 위한 기초 모델의 확장

KumoRFM-2: Scaling Foundation Models for Relational Learning

Vid Kocijan
Vid Kocijan
Citations: 90
h-index: 3
J. E. Lenssen
J. E. Lenssen
Citations: 10,029
h-index: 24
Matthias Fey
Matthias Fey
Citations: 281
h-index: 8
J. Leskovec
J. Leskovec
Citations: 2,972
h-index: 20
V. Hudovernik
V. Hudovernik
Citations: 51
h-index: 5
Federico L'opez
Federico L'opez
Citations: 0
h-index: 0
Akihiro Nitta
Akihiro Nitta
Citations: 96
h-index: 3

본 논문에서는 관계 데이터에 대한 사전 훈련된 기초 모델의 차세대 버전인 KumoRFM-2를 소개합니다. KumoRFM-2는 컨텍스트 내 학습(in-context learning)은 물론, 미세 조정(fine-tuning)도 지원하며, 다양한 예측 작업에 적용될 수 있습니다. 기존의 표 형식 기초 모델과 달리, KumoRFM-2는 관계 데이터를 기본적으로 처리하며, 수동 테이블 평탄화(flattening) 또는 목표 변수 생성 과정 없이 하나 이상의 연결된 테이블을 동시에 처리하고, 시간적 일관성을 유지합니다. KumoRFM-2는 대규모의 합성 및 실제 데이터를 활용하여 개별 테이블 수준의 행 및 열 차원, 그리고 데이터베이스 수준의 외래 키 및 교차 샘플 차원을 포함한 네 가지 측면에서 사전 훈련을 수행합니다. KumoRFM-2는 전작에 비해 작업 정보를 최대한 빨리 주입하여, 작업과 관련된 열을 보다 정확하게 선택하고, 노이즈가 많은 데이터에 대한 강건성을 향상시킵니다. 41개의 어려운 벤치마크에 대한 광범위한 실험과 표현력 및 민감도 분석을 통해, KumoRFM-2는 기존의 지도 학습 및 기초 모델 접근 방식보다 최대 8% 더 우수한 성능을 보이며, 콜드 스타트 및 노이즈가 많은 데이터 환경에서도 강력한 성능을 유지함을 입증합니다. KumoRFM-2는 기존의 몇 가지 예시(few-shot) 기초 모델이 일반적인 벤치마크 작업에서 지도 학습 방식을 능가하는 최초의 사례이며, 미세 조정을 통해 성능이 더욱 향상됩니다. 또한, KumoRFM-1이 소규모 메모리 내 데이터 세트에만 제한되었던 반면, KumoRFM-2는 10억 규모의 관계 데이터 세트까지 확장 가능합니다.

Original Abstract

We introduce KumoRFM-2, the next iteration of a pre-trained foundation model for relational data. KumoRFM-2 supports in-context learning as well as fine-tuning and is applicable to a wide range of predictive tasks. In contrast to tabular foundation models, KumoRFM-2 natively operates on relational data, processing one or more connected tables simultaneously without manual table flattening or target variable generation, all while preserving temporal consistency. KumoRFM-2 leverages a large corpus of synthetic and real-world data to pre-train across four axes: the row and column dimensions at the individual table level, and the foreign key and cross-sample dimensions at the database level. In contrast to its predecessor, KumoRFM-2 injects task information as early as possible, enabling sharper selection of task-relevant columns and improved robustness to noisy data. Through extensive experiments on 41 challenging benchmarks and analysis around expressivity and sensitivity, we demonstrate that KumoRFM-2 outperforms supervised and foundational approaches by up to 8%, while maintaining strong performance under extreme settings of cold start and noisy data. To our knowledge, this is the first time a few-shot foundation model has been shown to surpass supervised approaches on common benchmark tasks, with performance further improving upon fine-tuning. Finally, while KumoRFM-1 was limited to small-scale in-memory datasets, KumoRFM-2 scales to billion-scale relational datasets.

0 Citations
0 Influential
12 Altmetric
60.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!