대규모 온라인 사용자 반응 예측을 위한 효율적인 아키텍처 간 지식 전이
Efficient Cross-Architecture Knowledge Transfer for Large-Scale Online User Response Prediction
대규모 사용자 반응 예측 시스템에 새로운 아키텍처를 배포하는 것은 방대한 과거 데이터에 대한 재학습 비용과 데이터 보존 제약 하에서의 성능 저하로 인해 높은 모델 전환 비용을 발생시킵니다. 기존의 지식 증류(Knowledge Distillation) 방법들은 아키텍처의 이질성과 거대한 임베딩 테이블을 전이하는 데 드는 막대한 비용 문제로 어려움을 겪고 있습니다. 본 논문에서는 효율적인 아키텍처 간 지식 전이를 위한 2단계 프레임워크인 CrossAdapt를 제안합니다. 오프라인 단계에서는 반복적인 학습 없이 차원 적응형 투영을 통해 신속한 임베딩 전이를 가능하게 하며, 점진적 네트워크 증류와 전략적 샘플링을 결합하여 연산 비용을 절감합니다. 온라인 단계에서는 학생 모델은 빈번하게, 교사 모델은 드물게 업데이트하는 비대칭 공동 증류(asymmetric co-distillation)를 도입하고, 과거 지식 보존과 변화하는 데이터에 대한 빠른 적응 사이의 균형을 동적으로 조절하는 분포 인식 적응 메커니즘을 함께 사용합니다. 3개의 공개 데이터셋에 대한 실험 결과, CrossAdapt는 학습 시간을 43-71% 단축하면서도 0.27-0.43%의 AUC 향상을 달성했습니다. Tencent WeChat 채널(일일 약 1,000만 샘플)에서의 대규모 배포 실험에서도 일반적인 증류 베이스라인과 비교하여 AUC 저하, LogLoss 증가, 예측 편향을 크게 완화하며 그 효과를 입증했습니다.
Deploying new architectures in large-scale user response prediction systems incurs high model switching costs due to expensive retraining on massive historical data and performance degradation under data retention constraints. Existing knowledge distillation methods struggle with architectural heterogeneity and the prohibitive cost of transferring large embedding tables. We propose CrossAdapt, a two-stage framework for efficient cross-architecture knowledge transfer. The offline stage enables rapid embedding transfer via dimension-adaptive projections without iterative training, combined with progressive network distillation and strategic sampling to reduce computational cost. The online stage introduces asymmetric co-distillation, where students update frequently while teachers update infrequently, together with a distribution-aware adaptation mechanism that dynamically balances historical knowledge preservation and fast adaptation to evolving data. Experiments on three public datasets show that CrossAdapt achieves 0.27-0.43% AUC improvements while reducing training time by 43-71%. Large-scale deployment on Tencent WeChat Channels (~10M daily samples) further demonstrates its effectiveness, significantly mitigating AUC degradation, LogLoss increase, and prediction bias compared to standard distillation baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.