LLM 평가 모델의 신뢰성 진단: 준형 예측 집합과 전이성 위반
Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations
LLM을 평가 모델로 활용하는 방식이 자연어 생성 평가에 점점 더 많이 사용되고 있지만, 개별 데이터 포인트에 대한 신뢰성은 여전히 제대로 이해되지 못하고 있습니다. 본 연구에서는 SummEval에 적용할 수 있는 두 가지 진단 도구를 제시합니다. 첫째, 전이성 분석을 통해 입력 데이터별 일관성 부족 문제를 밝혀냅니다. 이 분석 결과, 전체 위반율은 낮게 나타나지만 (평균 0.8% - 4.1%), 33%에서 67%의 문서에서 최소 하나의 방향성 3-사이클이 존재합니다. 둘째, 1에서 5까지의 리커트 척도에 대한 분할 준형 예측 집합을 사용하여 이론적으로 보장된 ≥(1-α)의 커버리지를 제공하며, 집합의 폭은 개별 데이터 포인트의 신뢰성 지표로 사용됩니다 (r_s = +0.576, N=1,918, p < 10^{-100}, 모든 평가 모델에 대해 통합). 중요한 점은 예측 집합의 폭이 평가 모델 간에 일관된 합의를 보여준다는 것입니다 (평균 r = 0.32 - 0.38), 이는 문서 수준의 난이도를 반영하며 평가 모델 자체의 노이즈를 반영하는 것이 아님을 시사합니다. 네 명의 평가 모델과 네 가지 기준에 대해 두 가지 진단 방법 모두 일치하는 결과를 보입니다. 즉, 평가 모델보다 기준이 더 중요하며, 관련성 평가가 가장 신뢰할 수 있는 반면 (평균 집합 크기 약 3.0), 응집성은 중간 정도의 신뢰성을 보입니다 (평균 집합 크기 약 3.9). 유창성과 일관성은 여전히 신뢰성이 낮습니다 (평균 집합 크기 약 4.9). 본 연구에서 사용한 모든 코드, 프롬프트 및 캐시된 결과는 공개합니다.
LLM-as-judge frameworks are increasingly used for automatic NLG evaluation, yet their per-instance reliability remains poorly understood. We present a two-pronged diagnostic toolkit applied to SummEval: $\textbf{(1)}$ a transitivity analysis that reveals widespread per-input inconsistency masked by low aggregate violation rates ($\barρ = 0.8$-$4.1\%$), with $33$-$67\%$ of documents exhibiting at least one directed 3-cycle; and $\textbf{(2)}$ split conformal prediction sets over 1-5 Likert scores providing theoretically-guaranteed $\geq(1{-}α)$ coverage, with set width serving as a per-instance reliability indicator ($r_s = {+}0.576$, $N{=}1{,}918$, $p < 10^{-100}$, pooled across all judges). Critically, prediction set width shows consistent cross-judge agreement ($\bar{r} = 0.32$-$0.38$), demonstrating it captures document-level difficulty rather than judge-specific noise. Across four judges and four criteria, both diagnostics converge: criterion matters more than judge, with relevance judged most reliably (avg. set size $\approx 3.0$) and coherence moderately so (avg. set size $\approx 3.9$), while fluency and consistency remain unreliable (avg. set size $\approx 4.9$). We release all code, prompts, and cached results.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.