2603.14422v1 Mar 15, 2026 cs.LG

MBD: 사용자, 콘텐츠, 모델의 다양한 측면에서 모델 기반 편향 제거 프레임워크

MBD: A Model-Based Debiasing Framework Across User, Content, and Model Dimensions

Wei Wang
Wei Wang
Citations: 0
h-index: 0
Qifan Wang
Qifan Wang
Citations: 4
h-index: 1
Yuantong Li
Yuantong Li
University of California, Los Angeles
Citations: 118
h-index: 5
Lei Yuan
Lei Yuan
Citations: 207
h-index: 6
Zhi-Fu Zheng
Zhi-Fu Zheng
Citations: 1
h-index: 1
Wei-mo Wu
Wei-mo Wu
Citations: 3
h-index: 1
Songbin Liu
Songbin Liu
Citations: 9
h-index: 2
Jeonghwan Lee
Jeonghwan Lee
Citations: 1
h-index: 1
A. Aydin
A. Aydin
Citations: 396
h-index: 9
Shaofen Deng
Shaofen Deng
Citations: 67
h-index: 1
Junbo Chen
Junbo Chen
Citations: 74
h-index: 6
Xinyi Zhang
Xinyi Zhang
Citations: 1
h-index: 1
Hong Xia
Hong Xia
Citations: 3
h-index: 1
Sam Fieldman
Sam Fieldman
Citations: 0
h-index: 0
Matthew Kosko
Matthew Kosko
Citations: 11
h-index: 1
Wei Fu
Wei Fu
Citations: 57
h-index: 3
Du Zhang
Du Zhang
Citations: 11
h-index: 2
Peiyu Yang
Peiyu Yang
Citations: 17
h-index: 3
A. J. Chung
A. J. Chung
Citations: 10
h-index: 1
Xian Qiu
Xian Qiu
Citations: 1
h-index: 1
Miao Yu
Miao Yu
Citations: 20
h-index: 3
Zhongwei Teng
Zhongwei Teng
Citations: 230
h-index: 7
Hao Chen
Hao Chen
Citations: 975
h-index: 18
S. Baek
S. Baek
Citations: 11
h-index: 1
Hui Tang
Hui Tang
Citations: 10
h-index: 2
Yang Lv
Yang Lv
Citations: 9
h-index: 2
Renze Wang
Renze Wang
Citations: 0
h-index: 0
Tiantian Xu
Tiantian Xu
Citations: 0
h-index: 0
Peng Wu
Peng Wu
Citations: 35
h-index: 3
Ji Liu
Ji Liu
Citations: 5
h-index: 1

현대적인 추천 시스템은 가치 모델을 통해 다양한 행동 신호를 종합하여 후보 항목을 순위화합니다. 그러나 널리 사용되는 많은 신호는 본질적으로 이질적인 편향의 영향을 받습니다. 예를 들어, 시청 시간은 일반적으로 긴 형식의 콘텐츠를 선호하고, 반복률은 짧은 형식의 콘텐츠를 선호하며, 댓글 확률은 동영상보다 이미지를 선호합니다. 이러한 편향은 다음과 같은 두 가지 중요한 문제를 야기합니다. (1) 가치 모델 점수가 사용자의 상대적인 선호도와 체계적으로 일치하지 않을 수 있습니다. 예를 들어, 겉보기에는 낮은 좋아요 확률이 거의 참여하지 않는 사용자에게는 매우 강한 관심을 나타낼 수 있습니다. (2) 가치 모델 규칙의 변경은 갑작스럽고 바람직하지 않은 생태계 변화를 초래할 수 있습니다. 본 연구에서는 다음과 같은 근본적인 질문을 던집니다. 편향된 행동 신호를 사용자가 정의하는 "편향 없음"의 개념에 따라, 개인화되고 적응 가능한 방식으로 체계적으로 변환하여 편향되지 않은 신호로 만들 수 있는가? 우리는 분포 모델링을 통해 이 문제를 해결하는 일반적인 모델 기반 편향 제거(MBD) 프레임워크를 제안합니다. 유연한 특징 집합(부분 특징 집합)에 조건화하여, 특정 코호트(예: 특정 비디오 길이 또는 사용자 그룹)에 대한 참여 분포의 컨텍스트 평균과 분산을 예측 모델과 함께 명시적으로 추정합니다. 이러한 통합을 통해 프레임워크는 편향된 원시 신호를 편향되지 않은 표현으로 변환하여 가치 모델에 적합한 고수준의 보정된 신호(예: 백분위수 또는 Z-점수)를 구축할 수 있습니다. 또한, 편향 없음의 정의는 유연하고 제어 가능하여 시스템이 다양한 개인화 목표와 모델링 선호도에 적응할 수 있습니다. 중요한 점은 이 방법이 기존 MTML 순위 모델의 가벼운 확장 모듈로 구현되어 별도의 서비스 인프라가 필요하지 않습니다.

Original Abstract

Modern recommendation systems rank candidates by aggregating multiple behavioral signals through a value model. However, many commonly used signals are inherently affected by heterogeneous biases. For example, watch time naturally favors long-form content, loop rate favors short - form content, and comment probability favors videos over images. Such biases introduce two critical issues: (1) value model scores may be systematically misaligned with users' relative preferences - for instance, a seemingly low absolute like probability may represent exceptionally strong interest for a user who rarely engages; and (2) changes in value modeling rules can trigger abrupt and undesirable ecosystem shifts. In this work, we ask a fundamental question: can biased behavioral signals be systematically transformed into unbiased signals, under a user - defined notion of ``unbiasedness'', that are both personalized and adaptive? We propose a general, model-based debiasing (MBD) framework that addresses this challenge by augmenting it with distributional modeling. By conditioning on a flexible subset of features (partial feature set), we explicitly estimate the contextual mean and variance of the engagement distribution for arbitrary cohorts (e.g., specific video lengths or user regions) directly alongside the main prediction. This integration allows the framework to convert biased raw signals into unbiased representations, enabling the construction of higher-level, calibrated signals (such as percentiles or z - scores) suitable for the value model. Importantly, the definition of unbiasedness is flexible and controllable, allowing the system to adapt to different personalization objectives and modeling preferences. Crucially, this is implemented as a lightweight, built-in branch of the existing MTML ranking model, requiring no separate serving infrastructure.

0 Citations
0 Influential
9 Altmetric
45.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!