재순위 모델을 관련성 판단기로 활용
Re-Rankers as Relevance Judges
대규모 언어 모델(LLM)을 활용하여 관련성 판단을 예측하는 연구는 유망한 결과를 보여주었습니다. 대부분의 연구는 이 작업을 독립적인 연구 분야로 취급하며, 예를 들어 쿼리와 문서를 기반으로 관련성 레이블을 예측하기 위한 프롬프트 설계에 집중합니다. 그러나 관련성 판단 예측은 본질적으로 관련성 예측의 한 형태이며, 이는 재순위와 같은 작업에서 광범위하게 연구된 문제입니다. 이러한 잠재적인 연관성에도 불구하고, 기존의 재순위 방법을 활용하거나 적용하여 관련성 판단을 예측하는 연구는 거의 없었으며, 이는 잠재적인 자원 낭비와 중복 개발로 이어질 수 있습니다. 이러한 격차를 해소하기 위해, 우리는 재순위 모델을 관련성 판단기로 활용하는 설정을 구현했습니다. 우리는 두 가지 적응 전략을 설계했습니다: (i) 재순위 모델에서 생성된 이진 토큰(예:
Using large language models (LLMs) to predict relevance judgments has shown promising results. Most studies treat this task as a distinct research line, e.g., focusing on prompt design for predicting relevance labels given a query and passage. However, predicting relevance judgments is essentially a form of relevance prediction, a problem extensively studied in tasks such as re-ranking. Despite this potential overlap, little research has explored reusing or adapting established re-ranking methods to predict relevance judgments, leading to potential resource waste and redundant development. To bridge this gap, we reproduce re-rankers in a re-ranker-as-relevance-judge setup. We design two adaptation strategies: (i) using binary tokens (e.g., "true" and "false") generated by a re-ranker as direct judgments, and (ii) converting continuous re-ranking scores into binary labels via thresholding. We perform extensive experiments on TREC-DL 2019 to 2023 with 8 re-rankers from 3 families, ranging from 220M to 32B, and analyse the evaluation bias exhibited by re-ranker-based judges. Results show that re-ranker-based relevance judges, under both strategies, can outperform UMBRELA, a state-of-the-art LLM-based relevance judge, in around 40% to 50% of the cases; they also exhibit strong self-preference towards their own and same-family re-rankers, as well as cross-family bias.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.