예측 쿼리 언어: 관계형 데이터베이스 기반 예측 모델링을 위한 도메인 특화 언어
Predictive Query Language: A Domain-Specific Language for Predictive Modeling on Relational Databases
관계형 데이터에서의 예측 모델링은 관계형 데이터베이스 내의 미래 값 또는 누락된 값을 예측하는 것을 목표로 합니다. 예를 들어, 사용자의 향후 구매, 환자의 재입원 위험, 또는 금융 거래의 사기 가능성을 예측할 수 있습니다. 일반적으로 머신러닝 방법을 기반으로 하는 예측 모델은 추천 시스템, 금융 사기 탐지, 공급망 최적화 등 다양한 시스템에서 활용되며, 매일 수십억 건의 예측을 제공합니다. 그러나 머신러닝 모델을 훈련하기 위해서는 필요한 훈련 데이터(예측 대상과 목표 레이블)를 데이터베이스에서 추출하는 수동 작업이 필요하며, 이는 시간이 오래 걸리고, 노동력이 많이 들며, 오류가 발생하기 쉽습니다. 본 논문에서는 관계형 데이터베이스에서 예측 작업을 정의하기 위한 SQL에서 영감을 받은 선언적 언어인 Predictive Query Language (PQL)를 소개합니다. PQL을 사용하면 단일 선언적 쿼리를 통해 예측 작업을 지정할 수 있으며, 이를 통해 회귀, 분류, 시계열 예측, 추천 시스템 등 다양한 머신러닝 작업에 대한 훈련 레이블을 자동으로 계산할 수 있습니다. PQL은 이미 예측 AI 플랫폼의 일부로 다양한 사용 사례에 성공적으로 통합되어 사용되고 있습니다. 본 언어의 다재다능함은 금융 사기, 상품 추천, 워크로드 예측 등 다양한 사용 사례를 통해 입증될 수 있습니다. 우리는 두 가지 구현 방식을 통해 이러한 다재다능한 설계를 보여줍니다. 하나는 소규모 및 저지연 환경에 적합하며, 다른 하나는 대규모 데이터베이스를 처리할 수 있습니다.
The purpose of predictive modeling on relational data is to predict future or missing values in a relational database, for example, future purchases of a user, risk of readmission of the patient, or the likelihood that a financial transaction is fraudulent. Typically powered by machine learning methods, predictive models are used in recommendations, financial fraud detection, supply chain optimization, and other systems, providing billions of predictions every day. However, training a machine learning model requires manual work to extract the required training examples - prediction entities and target labels - from the database, which is slow, laborious, and prone to mistakes. Here, we present the Predictive Query Language (PQL), an SQL-inspired declarative language for defining predictive tasks on relational databases. PQL allows specifying a predictive task in a single declarative query, enabling the automatic computation of training labels for a large variety of machine learning tasks, such as regression, classification, time-series forecasting, and recommender systems. PQL is already successfully integrated and used in a collection of use cases as part of a predictive AI platform. The versatility of the language can be demonstrated through its many ongoing use cases, including financial fraud, item recommendations, and workload prediction. We demonstrate its versatile design through two implementations; one for small-scale, low-latency use and one that can handle large-scale databases.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.