2602.16111v1 Feb 18, 2026 stat.AP

대규모 A/B 테스트를 위한 대리 측정 기반 콘텐츠 노출 빈도 측정 방법

Surrogate-Based Prevalence Measurement for Large-Scale A/B Testing

Ze Xu
Ze Xu
Citations: 30
h-index: 2
Tony Paek
Tony Paek
Citations: 1
h-index: 1
Kevin O'Sullivan
Kevin O'Sullivan
Citations: 9
h-index: 1
A. Dobi
A. Dobi
Citations: 6,277
h-index: 31

온라인 미디어 플랫폼은 A/B 테스트를 통해 다양한 요소들의 효과를 평가하기 위해, 사용자에게 특정 콘텐츠 속성이 얼마나 자주 노출되는지를 측정해야 합니다. 직접적인 방법은 콘텐츠를 샘플링하고, 고품질 기준(예: 전문가 검토를 거친 LLM 프롬프트)을 사용하여 콘텐츠를 레이블링하고, 노출 횟수를 가중치로 적용하여 노출 빈도를 추정하는 것입니다. 그러나 모든 실험 그룹과 사용자 세그먼트에 대해 이러한 레이블링 작업을 반복적으로 수행하는 것은 비용이 너무 많이 들고 속도가 느려 대규모 측정 방법으로는 적합하지 않습니다. 본 논문에서는 실험 평가에 필요한 레이블링 작업을 분리하는 확장 가능한 '대리 측정 기반 콘텐츠 노출 빈도 측정' 프레임워크를 제시합니다. 이 프레임워크는 오프라인에서 대리 신호를 참조 레이블과 연결하여 보정하고, 이후에는 노출 로그 데이터만 사용하여 임의의 실험 그룹과 사용자 세그먼트에 대한 노출 빈도를 추정합니다. 본 논문에서는 '스코어 버케팅'을 대리 신호로 사용하여 이 프레임워크를 구현합니다. 모델 스코어를 구간으로 나누고, 오프라인에서 레이블링된 샘플을 사용하여 구간별 노출 빈도를 추정하고, 각 실험 그룹의 노출 로그 분포와 결합하여 빠르고 로그 기반의 추정치를 얻습니다. 여러 대규모 A/B 테스트를 통해 본 논문에서 제시하는 대리 측정 추정치가 실험 그룹별 노출 빈도 및 실험 그룹과 대조 그룹 간의 차이를 나타내는 참조 측정값과 밀접하게 일치하는 것을 확인했습니다. 이를 통해 실험 과정에서 개별적으로 레이블링 작업을 수행하지 않고도 확장 가능하고 지연 시간이 짧은 노출 빈도 측정 방법을 사용할 수 있습니다.

Original Abstract

Online media platforms often need to measure how frequently users are exposed to specific content attributes in order to evaluate trade-offs in A/B experiments. A direct approach is to sample content, label it using a high-quality rubric (e.g., an expert-reviewed LLM prompt), and estimate impression-weighted prevalence. However, repeatedly running such labeling for every experiment arm and segment is too costly and slow to serve as a default measurement at scale. We present a scalable \emph{surrogate-based prevalence measurement} framework that decouples expensive labeling from per-experiment evaluation. The framework calibrates a surrogate signal to reference labels offline and then uses only impression logs to estimate prevalence for arbitrary experiment arms and segments. We instantiate this framework using \emph{score bucketing} as the surrogate: we discretize a model score into buckets, estimate bucket-level prevalences from an offline labeled sample, and combine these calibrated bucket level prevalences with the bucket distribution of impressions in each arm to obtain fast, log-based estimates. Across multiple large-scale A/B tests, we validate that the surrogate estimates closely match the reference estimates for both arm-level prevalence and treatment--control deltas. This enables scalable, low-latency prevalence measurement in experimentation without requiring per-experiment labeling jobs.

1 Citations
0 Influential
15.5 Altmetric
78.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!