2604.15302v1 Apr 16, 2026 cs.AI

LLM 평가 모델의 신뢰성 진단: 준형 예측 집합과 전이성 위반

Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations

Dhruv Kumar
Dhruv Kumar
Citations: 26
h-index: 2
Manan Gupta
Manan Gupta
Citations: 0
h-index: 0

LLM을 평가 모델로 활용하는 방식이 자연어 생성 평가에 점점 더 많이 사용되고 있지만, 개별 데이터 포인트에 대한 신뢰성은 여전히 제대로 이해되지 못하고 있습니다. 본 연구에서는 SummEval에 적용할 수 있는 두 가지 진단 도구를 제시합니다. 첫째, 전이성 분석을 통해 입력 데이터별 일관성 부족 문제를 밝혀냅니다. 이 분석 결과, 전체 위반율은 낮게 나타나지만 (평균 0.8% - 4.1%), 33%에서 67%의 문서에서 최소 하나의 방향성 3-사이클이 존재합니다. 둘째, 1에서 5까지의 리커트 척도에 대한 분할 준형 예측 집합을 사용하여 이론적으로 보장된 ≥(1-α)의 커버리지를 제공하며, 집합의 폭은 개별 데이터 포인트의 신뢰성 지표로 사용됩니다 (r_s = +0.576, N=1,918, p < 10^{-100}, 모든 평가 모델에 대해 통합). 중요한 점은 예측 집합의 폭이 평가 모델 간에 일관된 합의를 보여준다는 것입니다 (평균 r = 0.32 - 0.38), 이는 문서 수준의 난이도를 반영하며 평가 모델 자체의 노이즈를 반영하는 것이 아님을 시사합니다. 네 명의 평가 모델과 네 가지 기준에 대해 두 가지 진단 방법 모두 일치하는 결과를 보입니다. 즉, 평가 모델보다 기준이 더 중요하며, 관련성 평가가 가장 신뢰할 수 있는 반면 (평균 집합 크기 약 3.0), 응집성은 중간 정도의 신뢰성을 보입니다 (평균 집합 크기 약 3.9). 유창성과 일관성은 여전히 신뢰성이 낮습니다 (평균 집합 크기 약 4.9). 본 연구에서 사용한 모든 코드, 프롬프트 및 캐시된 결과는 공개합니다.

Original Abstract

LLM-as-judge frameworks are increasingly used for automatic NLG evaluation, yet their per-instance reliability remains poorly understood. We present a two-pronged diagnostic toolkit applied to SummEval: $\textbf{(1)}$ a transitivity analysis that reveals widespread per-input inconsistency masked by low aggregate violation rates ($\barρ = 0.8$-$4.1\%$), with $33$-$67\%$ of documents exhibiting at least one directed 3-cycle; and $\textbf{(2)}$ split conformal prediction sets over 1-5 Likert scores providing theoretically-guaranteed $\geq(1{-}α)$ coverage, with set width serving as a per-instance reliability indicator ($r_s = {+}0.576$, $N{=}1{,}918$, $p < 10^{-100}$, pooled across all judges). Critically, prediction set width shows consistent cross-judge agreement ($\bar{r} = 0.32$-$0.38$), demonstrating it captures document-level difficulty rather than judge-specific noise. Across four judges and four criteria, both diagnostics converge: criterion matters more than judge, with relevance judged most reliably (avg. set size $\approx 3.0$) and coherence moderately so (avg. set size $\approx 3.9$), while fluency and consistency remain unreliable (avg. set size $\approx 4.9$). We release all code, prompts, and cached results.

0 Citations
0 Influential
1 Altmetric
5.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!