2601.04455v1 Jan 08, 2026 cs.IR

재순위 모델을 관련성 판단기로 활용

Re-Rankers as Relevance Judges

M. D. Rijke
M. D. Rijke
Citations: 1,639
h-index: 20
Jeff Dalton
Jeff Dalton
Citations: 34
h-index: 2
Chuan Meng
Chuan Meng
Citations: 216
h-index: 8
Mohammad Aliannejadi
Mohammad Aliannejadi
Citations: 624
h-index: 15
Fengran Mo
Fengran Mo
Citations: 39
h-index: 2
Jiqun Liu
Jiqun Liu
Citations: 845
h-index: 17

대규모 언어 모델(LLM)을 활용하여 관련성 판단을 예측하는 연구는 유망한 결과를 보여주었습니다. 대부분의 연구는 이 작업을 독립적인 연구 분야로 취급하며, 예를 들어 쿼리와 문서를 기반으로 관련성 레이블을 예측하기 위한 프롬프트 설계에 집중합니다. 그러나 관련성 판단 예측은 본질적으로 관련성 예측의 한 형태이며, 이는 재순위와 같은 작업에서 광범위하게 연구된 문제입니다. 이러한 잠재적인 연관성에도 불구하고, 기존의 재순위 방법을 활용하거나 적용하여 관련성 판단을 예측하는 연구는 거의 없었으며, 이는 잠재적인 자원 낭비와 중복 개발로 이어질 수 있습니다. 이러한 격차를 해소하기 위해, 우리는 재순위 모델을 관련성 판단기로 활용하는 설정을 구현했습니다. 우리는 두 가지 적응 전략을 설계했습니다: (i) 재순위 모델에서 생성된 이진 토큰(예:

Original Abstract

Using large language models (LLMs) to predict relevance judgments has shown promising results. Most studies treat this task as a distinct research line, e.g., focusing on prompt design for predicting relevance labels given a query and passage. However, predicting relevance judgments is essentially a form of relevance prediction, a problem extensively studied in tasks such as re-ranking. Despite this potential overlap, little research has explored reusing or adapting established re-ranking methods to predict relevance judgments, leading to potential resource waste and redundant development. To bridge this gap, we reproduce re-rankers in a re-ranker-as-relevance-judge setup. We design two adaptation strategies: (i) using binary tokens (e.g., "true" and "false") generated by a re-ranker as direct judgments, and (ii) converting continuous re-ranking scores into binary labels via thresholding. We perform extensive experiments on TREC-DL 2019 to 2023 with 8 re-rankers from 3 families, ranging from 220M to 32B, and analyse the evaluation bias exhibited by re-ranker-based judges. Results show that re-ranker-based relevance judges, under both strategies, can outperform UMBRELA, a state-of-the-art LLM-based relevance judge, in around 40% to 50% of the cases; they also exhibit strong self-preference towards their own and same-family re-rankers, as well as cross-family bias.

0 Citations
0 Influential
10 Altmetric
50.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!