추론이 검색의 공정성을 향상시키는가? 추론 기반 리랭커와 비추론 기반 리랭커의 공정성 비교
Does Reasoning Make Search More Fair? Comparing Fairness in Reasoning and Non-Reasoning Rerankers
Rank1과 같은 추론 기반 리랭커는 검색 결과의 관련성을 향상시키는 데 강력한 성능을 보여주었지만, 공정성과 같은 다른 검색 품질 측면에서는 어떤 성능을 보이는지 불분명합니다. 본 연구에서는 추론 기반 리랭커와 비추론 기반 리랭커의 공정성을 체계적으로 비교하는 첫 번째 연구입니다. TREC 2022 Fair Ranking Track 데이터셋을 사용하여, 다양한 검색 환경 및 인구 통계학적 속성을 기준으로 6개의 리랭킹 모델을 평가했습니다. 연구 결과, 추론은 비추론적 접근 방식과 비교하여 공정성을 향상시키거나 저해하지 않는 것으로 나타났습니다. 본 연구에서 사용한 공정성 지표인 Attention-Weighted Rank Fairness (AWRF)는 모든 모델에서 0.33에서 0.35 사이의 안정적인 값을 유지했으며, 관련성 점수가 0.247에서 1.000으로 크게 변동하는 경우에도 변하지 않았습니다. 인구 통계학적 분석 결과, 모델 아키텍처에 관계없이 지리적 속성에 대한 공정성 격차가 존재하는 것으로 나타났습니다. 이러한 결과는 향후 추론 모델이 공정성 속성을 인식하도록 특화하는 연구가 진행된다면 개선될 수 있음을 시사합니다. 현재 구현 방식은 입력 순위의 공정성 특성을 유지하기 때문입니다.
While reasoning rerankers, such as Rank1, have demonstrated strong abilities in improving ranking relevance, it is unclear how they perform on other retrieval qualities such as fairness. We conduct the first systematic comparison of fairness between reasoning and non-reasoning rerankers. Using the TREC 2022 Fair Ranking Track dataset, we evaluate six reranking models across multiple retrieval settings and demographic attributes. Our findings demonstrate reasoning neither improve nor harm fairness compared to non-reasoning approaches. Our fairness metric, Attention-Weighted Rank Fairness (AWRF) remained stable (0.33-0.35) across all models, even as relevance varies substantially (nDCG 0.247-1.000). Demographic breakdown analysis revealed fairness gaps for geographic attributes regardless of model architecture. These results indicate that future work in specializing reasoning models to be aware of fairness attributes could lead to improvements, as current implementations preserve the fairness characteristics of their input ranking.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.