KumoRFM-2: 관계 학습을 위한 기초 모델의 확장
KumoRFM-2: Scaling Foundation Models for Relational Learning
본 논문에서는 관계 데이터에 대한 사전 훈련된 기초 모델의 차세대 버전인 KumoRFM-2를 소개합니다. KumoRFM-2는 컨텍스트 내 학습(in-context learning)은 물론, 미세 조정(fine-tuning)도 지원하며, 다양한 예측 작업에 적용될 수 있습니다. 기존의 표 형식 기초 모델과 달리, KumoRFM-2는 관계 데이터를 기본적으로 처리하며, 수동 테이블 평탄화(flattening) 또는 목표 변수 생성 과정 없이 하나 이상의 연결된 테이블을 동시에 처리하고, 시간적 일관성을 유지합니다. KumoRFM-2는 대규모의 합성 및 실제 데이터를 활용하여 개별 테이블 수준의 행 및 열 차원, 그리고 데이터베이스 수준의 외래 키 및 교차 샘플 차원을 포함한 네 가지 측면에서 사전 훈련을 수행합니다. KumoRFM-2는 전작에 비해 작업 정보를 최대한 빨리 주입하여, 작업과 관련된 열을 보다 정확하게 선택하고, 노이즈가 많은 데이터에 대한 강건성을 향상시킵니다. 41개의 어려운 벤치마크에 대한 광범위한 실험과 표현력 및 민감도 분석을 통해, KumoRFM-2는 기존의 지도 학습 및 기초 모델 접근 방식보다 최대 8% 더 우수한 성능을 보이며, 콜드 스타트 및 노이즈가 많은 데이터 환경에서도 강력한 성능을 유지함을 입증합니다. KumoRFM-2는 기존의 몇 가지 예시(few-shot) 기초 모델이 일반적인 벤치마크 작업에서 지도 학습 방식을 능가하는 최초의 사례이며, 미세 조정을 통해 성능이 더욱 향상됩니다. 또한, KumoRFM-1이 소규모 메모리 내 데이터 세트에만 제한되었던 반면, KumoRFM-2는 10억 규모의 관계 데이터 세트까지 확장 가능합니다.
We introduce KumoRFM-2, the next iteration of a pre-trained foundation model for relational data. KumoRFM-2 supports in-context learning as well as fine-tuning and is applicable to a wide range of predictive tasks. In contrast to tabular foundation models, KumoRFM-2 natively operates on relational data, processing one or more connected tables simultaneously without manual table flattening or target variable generation, all while preserving temporal consistency. KumoRFM-2 leverages a large corpus of synthetic and real-world data to pre-train across four axes: the row and column dimensions at the individual table level, and the foreign key and cross-sample dimensions at the database level. In contrast to its predecessor, KumoRFM-2 injects task information as early as possible, enabling sharper selection of task-relevant columns and improved robustness to noisy data. Through extensive experiments on 41 challenging benchmarks and analysis around expressivity and sensitivity, we demonstrate that KumoRFM-2 outperforms supervised and foundational approaches by up to 8%, while maintaining strong performance under extreme settings of cold start and noisy data. To our knowledge, this is the first time a few-shot foundation model has been shown to surpass supervised approaches on common benchmark tasks, with performance further improving upon fine-tuning. Finally, while KumoRFM-1 was limited to small-scale in-memory datasets, KumoRFM-2 scales to billion-scale relational datasets.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.