클릭률 예측을 위한 스트리밍 숫자 특징의 분포 정보 기반 엔드-투-엔드 임베딩
Distribution-Aware End-to-End Embedding for Streaming Numerical Features in Click-Through Rate Prediction
본 논문은 스트리밍 환경에서 클릭률 예측을 위한 효과적인 숫자 특징 임베딩 방법을 연구합니다. 기존의 정적 구간 분할 방식은 숫자 분포의 오프라인 통계에 의존하지만, 이러한 이원적인 과정은 종종 구간 경계 업데이트 과정에서 의미 변화를 초래합니다. 신경망 임베딩 방법은 엔드-투-엔드 학습을 가능하게 하지만, 명시적인 분포 정보를 활용하지 않는 경우가 많습니다. 이러한 정보를 엔드-투-엔드 방식으로 통합하는 것은 스트리밍 특징이 독립 동일 분포(i.i.d.) 가정을 위반하는 경우가 많아, 순위 통계의 기댓값을 통해 모집단 분포를 편향 없이 추정하기 어렵기 때문에 어렵습니다. 또한, 숫자 분포의 중요한 문맥 의존성이 종종 간과됩니다. 이에, 본 논문에서는 분포 정보를 적응형 변조 메커니즘과 통합하여 스트리밍 학습 시나리오에서 숫자 특징 임베딩 문제를 해결하기 위한 엔드-투-엔드 프레임워크인 DAES를 제안합니다. 구체적으로, 효율적인 샘플링 기반 분포 추정 방법과 두 가지 필드 인식 분포 변조 전략을 도입하여 스트리밍 분포와 필드 의존적인 의미를 포착합니다. DAES는 광범위한 오프라인 및 온라인 실험을 통해 기존 방법보다 성능이 우수하며, 일일 활성 사용자 수 백만 명에 달하는 선도적인 짧은 동영상 플랫폼에 완전히 적용되었습니다.
This paper explores effective numerical feature embedding for Click-Through Rate prediction in streaming environments. Conventional static binning methods rely on offline statistics of numerical distributions; however, this inherently two-stage process often triggers semantic drift during bin boundary updates. While neural embedding methods enable end-to-end learning, they often discard explicit distributional information. Integrating such information end-to-end is challenging because streaming features often violate the i.i.d. assumption, precluding unbiased estimation of the population distribution via the expectation of order statistics. Furthermore, the critical context dependency of numerical distributions is often neglected. To this end, we propose DAES, an end-to-end framework designed to tackle numerical feature embedding in streaming training scenarios by integrating distributional information with an adaptive modulation mechanism. Specifically, we introduce an efficient reservoir-sampling-based distribution estimation method and two field-aware distribution modulation strategies to capture streaming distributions and field-dependent semantics. DAES significantly outperforms existing approaches as demonstrated by extensive offline and online experiments and has been fully deployed on a leading short-video platform with hundreds of millions of daily active users.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.