원칙에 기반한 합성 데이터가 추천 시스템 분야의 LLM(대규모 언어 모델) 확장 법칙을 최초로 제시하다
Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation
대규모 언어 모델(LLM)은 추천 시스템 분야에서 큰 잠재력을 가지고 있지만, 연구를 이끌고 자원 배분을 최적화하는 데 필수적인 예측 가능한 확장 법칙의 부재로 인해 개발이 제한되어 왔습니다. 우리는 이러한 현상이 기존의 지속적인 사전 훈련(CPT) 과정에서 사용되는 원시 사용자 상호 작용 데이터의 고유한 노이즈, 편향 및 불완전성 때문일 것이라고 가정합니다. 본 논문에서는 LLM을 위한 체계적인 교육 과정을 구축하여 이러한 문제를 해결하는 고품질 합성 데이터를 생성하는 새로운 계층적 프레임워크를 소개합니다. 우리는 제안하는 교육 과정의 유용성을 강력하고 직접적인 증거를 통해 보여줍니다. 우리의 원칙에 기반한 합성 데이터로 훈련된 표준 순차 모델이 실제 데이터로 훈련된 모델보다 다운스트림 순위 지정 작업에서 현저하게 뛰어난 성능을 보였습니다(SasRec의 경우 recall@100이 130% 향상). 이는 우리의 데이터가 일반적인 사용자 선호도 패턴을 학습하는 데 더 효과적임을 입증합니다. 이를 바탕으로, 우리는 고품질의 추천 시스템에 특화된 데이터로 지속적으로 사전 훈련된 LLM에 대해 강력하고 일관된 거듭제곱 법칙 스케일링을 최초로 실증적으로 보여줍니다. 우리의 실험 결과는 다양한 합성 데이터 유형에서 일관되고 예측 가능한 퍼플렉시티 감소를 보여줍니다. 이러한 결과는 추천 시스템 분야에서 LLM의 신뢰할 수 있는 확장 기능을 위한 기초적인 방법론을 확립하며, 연구 초점을 데이터 부족 문제를 완화하는 것에서 고품질의 구조화된 정보를 활용하는 것으로 전환합니다.
Large Language Models (LLMs) represent a promising frontier for recommender systems, yet their development has been impeded by the absence of predictable scaling laws, which are crucial for guiding research and optimizing resource allocation. We hypothesize that this may be attributed to the inherent noise, bias, and incompleteness of raw user interaction data in prior continual pre-training (CPT) efforts. This paper introduces a novel, layered framework for generating high-quality synthetic data that circumvents such issues by creating a curated, pedagogical curriculum for the LLM. We provide powerful, direct evidence for the utility of our curriculum by showing that standard sequential models trained on our principled synthetic data significantly outperform ($+130\%$ on recall@100 for SasRec) models trained on real data in downstream ranking tasks, demonstrating its superiority for learning generalizable user preference patterns. Building on this, we empirically demonstrate, for the first time, robust power-law scaling for an LLM that is continually pre-trained on our high-quality, recommendation-specific data. Our experiments reveal consistent and predictable perplexity reduction across multiple synthetic data modalities. These findings establish a foundational methodology for reliable scaling LLM capabilities in the recommendation domain, thereby shifting the research focus from mitigating data deficiencies to leveraging high-quality, structured information.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.