2601.13649v1 Jan 20, 2026 cs.CL

공정성인가, 유창성인가? 쌍대 비교 LLM 평가 모델의 언어 편향성에 대한 연구

Fairness or Fluency? An Investigation into Language Bias of Pairwise LLM-as-a-Judge

Zheng Luo
Zheng Luo
Citations: 1
h-index: 1
Xiyang Hu
Xiyang Hu
Citations: 0
h-index: 0
Yue Zhao
Yue Zhao
Citations: 0
h-index: 0
Xiaolin Zhou
Xiaolin Zhou
Citations: 55
h-index: 3
Yicheng Gao
Yicheng Gao
Citations: 2
h-index: 1
Qixuan Chen
Qixuan Chen
Citations: 11
h-index: 1
Ruishan Liu
Ruishan Liu
Citations: 9
h-index: 2

최근 대규모 언어 모델(LLM)의 발전은 LLM을 활용하여 텍스트의 품질을 판단하는 'LLM 평가 모델'의 개발을 촉진했습니다. 그러나 기존 연구들은 LLM 평가 모델이 평가 대상 텍스트의 다양한 측면에 대해 편향될 수 있으며, 이러한 편향이 종종 인간의 선호와 일치하지 않는다는 것을 보여주었습니다. 식별된 편향 중 하나는 언어 편향으로, 이는 LLM 평가 모델의 판단이 평가 대상 텍스트의 언어에 따라 달라질 수 있음을 의미합니다. 본 연구에서는 쌍대 비교 LLM 평가 모델에서 발생하는 두 가지 유형의 언어 편향을 연구합니다. (1) 동일 언어 옵션을 비교하도록 지시될 때 언어 간 성능 차이, (2) 두 가지 다른 언어의 옵션을 비교하도록 지시될 때 주요 언어에 대한 편향. 연구 결과, 동일 언어 평가에서 언어 계열 간에 상당한 성능 차이가 있으며, 유럽 언어가 아프리카 언어보다 일관되게 높은 성능을 보이며, 이러한 편향은 문화적으로 관련된 주제에서 더욱 두드러집니다. 서로 다른 언어의 옵션을 비교할 때, 대부분의 모델이 영어 답변을 선호하며, 이러한 선호도는 답변 언어에 더 큰 영향을 받는 것으로 나타났습니다. 마지막으로, 언어 편향이 LLM 평가 모델의 기존 편향인 '낮은 퍼플렉시티 편향'에 의해 발생하는지 여부를 조사했습니다. 그 결과, 퍼플렉시티가 언어 편향과 약간의 상관관계를 가지는 것으로 나타났지만, 언어 편향은 퍼플렉시티만으로는 완전히 설명할 수 없습니다.

Original Abstract

Recent advances in Large Language Models (LLMs) have incentivized the development of LLM-as-a-judge, an application of LLMs where they are used as judges to decide the quality of a certain piece of text given a certain context. However, previous studies have demonstrated that LLM-as-a-judge can be biased towards different aspects of the judged texts, which often do not align with human preference. One of the identified biases is language bias, which indicates that the decision of LLM-as-a-judge can differ based on the language of the judged texts. In this paper, we study two types of language bias in pairwise LLM-as-a-judge: (1) performance disparity between languages when the judge is prompted to compare options from the same language, and (2) bias towards options written in major languages when the judge is prompted to compare options of two different languages. We find that for same-language judging, there exist significant performance disparities across language families, with European languages consistently outperforming African languages, and this bias is more pronounced in culturally-related subjects. For inter-language judging, we observe that most models favor English answers, and that this preference is influenced more by answer language than question language. Finally, we investigate whether language bias is in fact caused by low-perplexity bias, a previously identified bias of LLM-as-a-judge, and we find that while perplexity is slightly correlated with language bias, language bias cannot be fully explained by perplexity only.

1 Citations
0 Influential
1.5 Altmetric
8.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!