노이즈에서 질서로: 디노이징 디퓨전을 통한 랭킹 학습
From Noise to Order: Learning to Rank via Denoising Diffusion
정보 검색(IR)에서 랭킹 학습(LTR) 방법은 전통적으로 쿼리-문서 쌍의 특정 특징 표현이 주어졌을 때 문서가 쿼리와 관련이 있을 확률을 모델링하는 판별적 기계 학습 접근법에 국한되어 왔다. 본 연구에서는 특징 벡터와 관련성 레이블의 전체 결합 분포를 모델링하는 LTR을 위한 대안적인 디노이징 디퓨전 기반 심층 생성 접근법을 제안한다. 판별적 설정에서는 과도하게 매개변수화된 랭킹 모델이 훈련 데이터에 적합하는 여러 방법을 찾을 수 있지만, 우리는 생성적 설정에서 전체 데이터 분포를 설명할 수 있는 후보 솔루션이 더 강건한 랭킹 모델을 생성한다는 가설을 세웠다. 이러한 동기를 바탕으로 우리는 고전적인 판별적 점별(pointwise) 및 쌍별(pairwise) LTR 목적 함수의 생성적 등가물을 만들기 위해, 표형 데이터셋을 위한 기존 디노이징 디퓨전 기반 생성 모델인 TabDiff를 확장한 DiffusionRank를 제안한다. 실증적 결과는 DiffusionRank 모델이 기존의 판별적 모델들에 비해 상당한 성능 향상을 보여줌을 입증한다. 본 연구는 정보 검색의 랭킹 학습을 위해 디퓨전과 같은 심층 생성 모델링 접근법의 지속적인 발전을 어떻게 활용할 수 있는지에 대한 향후 연구를 위한 풍부한 탐색 공간을 제시한다.
In information retrieval (IR), learning-to-rank (LTR) methods have traditionally limited themselves to discriminative machine learning approaches that model the probability of the document being relevant to the query given some feature representation of the query-document pair. In this work, we propose an alternative denoising diffusion-based deep generative approach to LTR that instead models the full joint distribution over feature vectors and relevance labels. While in the discriminative setting, an over-parameterized ranking model may find different ways to fit the training data, we hypothesize that candidate solutions that can explain the full data distribution under the generative setting produce more robust ranking models. With this motivation, we propose DiffusionRank that extends TabDiff, an existing denoising diffusion-based generative model for tabular datasets, to create generative equivalents of classical discriminative pointwise and pairwise LTR objectives. Our empirical results demonstrate significant improvements from DiffusionRank models over their discriminative counterparts. Our work points to a rich space for future research exploration on how we can leverage ongoing advancements in deep generative modeling approaches, such as diffusion, for learning-to-rank in IR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.