평가 척도가 LLM-as-a-Judge에 미치는 영향: 0-5점 척도에서 인간-LLM 일치도가 가장 높음
Grading Scale Impact on LLM-as-a-Judge: Human-LLM Alignment Is Highest on 0-5 Grading Scale
최근 대규모 언어 모델(LLM)이 자동 평가 도구로 점점 더 많이 사용되고 있지만, 기존 연구에서는 LLM 평가자가 프롬프트가 변경될 때 일관성 없는 점수를 부여하는 경향이 있다는 것을 보여주었습니다. 그러나 평가 척도 자체가 미치는 영향은 아직 충분히 연구되지 않았습니다. 본 연구에서는 LLM-as-a-Judge 문제를 해결하기 위해 인간 평가자와 LLM 평가자를 비교했습니다. 우리는 세 가지 척도를 사용하여 인간과 LLM 평가자 모두로부터 평가를 수집하고, 객관적, 개방형 주관식, 혼합형 등 총 여섯 가지 벤치마크를 사용했습니다. 내부 일관성 계수(ICC)를 사용하여 절대적인 일치도를 측정 결과, LLM의 판단은 주관적인 벤치마크에서 척도에 따라 완벽하게 일관되지 않으며, 척도의 선택은 집단 내부의 신뢰도가 높더라도 인간-LLM 일치도에 상당한 영향을 미칩니다. 작업 전체를 종합적으로 고려했을 때, 0-5점 척도가 인간-LLM 일치도를 가장 높게 나타냈습니다. 또한, 집계된 신뢰도는 벤치마크의 이질성을 가릴 수 있으며, 성별 그룹 간의 체계적인 하위 그룹 차이를 드러낼 수 있음을 보여주었습니다. 이는 척도 설계 및 하위 수준 분석이 LLM-as-a-Judge 프로토콜의 필수적인 구성 요소임을 강조합니다.
Large language models (LLMs) are increasingly used as automated evaluators, yet prior works demonstrate that these LLM judges often lack consistency in scoring when the prompt is altered. However, the effect of the grading scale itself remains underexplored. We study the LLM-as-a-judge problem by comparing two kinds of raters: humans and LLMs. We collect ratings from both groups on three scales and across six benchmarks that include objective, open-ended subjective, and mixed tasks. Using intraclass correlation coefficients (ICC) to measure absolute agreement, we find that LLM judgments are not perfectly consistent across scales on subjective benchmarks, and that the choice of scale substantially shifts human-LLM agreement, even when within-group panel reliability is high. Aggregated over tasks, the grading scale of 0-5 yields the strongest human-LLM alignment. We further demonstrate that pooled reliability can mask benchmark heterogeneity and reveal systematic subgroup differences in alignment across gender groups, strengthening the importance of scale design and sub-level diagnostics as essential components of LLM-as-a-judge protocols.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.