쿤룬: 통일된 아키텍처 설계를 통해 대규모 추천 시스템의 확장 법칙을 확립하다
Kunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design
모델 성능과 컴퓨팅 투자 간의 관계를 규정하는 예측 가능한 확장 법칙을 도출하는 것은 대규모 추천 시스템의 설계 및 자원 할당에 매우 중요합니다. 이러한 법칙은 대규모 언어 모델에 대해서는 이미 확립되었지만, 특히 사용자 기록과 컨텍스트 특징을 모두 처리하는 추천 시스템에서는 여전히 어려운 과제입니다. 우리는 예측 가능한 거듭제곱 법칙 확장을 방해하는 주요 요인으로 모델 FLOPs 활용률(MFU)이 낮은 비효율적인 모듈과 최적화되지 않은 자원 할당을 지목합니다. 우리는 모델 효율성과 자원 할당을 체계적으로 개선하는 확장 가능한 아키텍처인 쿤룬(Kunlun)을 소개합니다. 우리의 저수준 최적화 기술에는 일반화된 내적 주의(GDPA), 계층적 시드 풀링(HSP), 슬라이딩 윈도우 주의(Sliding Window Attention)가 포함됩니다. 우리의 고수준 혁신에는 연산 건너뛰기(CompSkip)와 이벤트 레벨 개인화가 특징입니다. 이러한 발전은 NVIDIA B200 GPU에서 MFU를 17%에서 37%로 증가시키고, 최첨단 방법보다 확장 효율을 두 배로 향상시킵니다. 쿤룬은 현재 메타 광고의 주요 모델에 배포되어 상당한 생산성 향상을 가져왔습니다.
Deriving predictable scaling laws that govern the relationship between model performance and computational investment is crucial for designing and allocating resources in massive-scale recommendation systems. While such laws are established for large language models, they remain challenging for recommendation systems, especially those processing both user history and context features. We identify poor scaling efficiency as the main barrier to predictable power-law scaling, stemming from inefficient modules with low Model FLOPs Utilization (MFU) and suboptimal resource allocation. We introduce Kunlun, a scalable architecture that systematically improves model efficiency and resource allocation. Our low-level optimizations include Generalized Dot-Product Attention (GDPA), Hierarchical Seed Pooling (HSP), and Sliding Window Attention. Our high-level innovations feature Computation Skip (CompSkip) and Event-level Personalization. These advances increase MFU from 17% to 37% on NVIDIA B200 GPUs and double scaling efficiency over state-of-the-art methods. Kunlun is now deployed in major Meta Ads models, delivering significant production impact.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.