SCOPE: 선택적이고 정규화된 쌍대 LLM 평가 방법
SCOPE: Selective Conformal Optimized Pairwise LLM Judging
대규모 언어 모델(LLM)은 점점 더 많이 쌍대 평가에서 비용이 많이 드는 인간 선호도 레이블을 대체하는 판사로 사용되고 있습니다. 실용성이 뛰어나지만, LLM 판사는 여전히 부정확한 경향과 체계적인 편향에 취약합니다. 본 논문에서는 선택적 쌍대 평가를 위한 프레임워크인 SCOPE(Selective Conformal Optimized Pairwise Evaluation)를 제안합니다. SCOPE는 유한한 샘플 통계적 보장을 제공하며, 교환 가능성을 가정할 때, 사용자가 지정한 수준 $α$ 이하의 오류율을 갖는 수용 임계값을 조정합니다. SCOPE에 편향 없는 불확실성 신호를 제공하기 위해, 양방향 선호도 엔트로피(BPE)를 도입합니다. BPE는 판사에게 두 가지 응답 위치 모두에 대한 질문을 하고, 응답 순서에 대한 불변성을 강제하기 위해 암시된 선호도 확률을 집계하고, 집계된 확률을 엔트로피 기반의 불확실성 점수로 변환합니다. MT-Bench, RewardBench, Chatbot Arena를 통해, BPE는 표준 신뢰도 지표보다 불확실성 품질이 우수하며, 더 강력한 선택 신호를 제공하여 SCOPE가 대상 위험 수준을 지속적으로 충족하면서 다양한 판사 규모에 걸쳐 우수한 커버리지를 유지할 수 있도록 합니다. 특히, $α= 0.10$일 때, SCOPE는 모든 벤치마크 및 판사 규모에서 위험 경계를 지속적으로 만족합니다 (실험적 위험 약 0.097에서 0.099). 또한, Qwen-14B를 사용하여 RewardBench에서 0.89, Qwen-32B를 사용하여 RewardBench에서 0.98의 상당한 커버리지를 달성합니다. 동일한 대상 위험 제약 조건 하에서, Qwen-7B를 사용한 MT-Bench에서 SCOPE는 기본적인 방법보다 최대 2.4배 더 많은 판단을 수락합니다. 이는 BPE가 신뢰할 수 있고 높은 커버리지를 갖는 LLM 기반 평가를 가능하게 함을 보여줍니다.
Large language models (LLMs) are increasingly used as judges to replace costly human preference labels in pairwise evaluation. Despite their practicality, LLM judges remain prone to miscalibration and systematic biases. This paper proposes SCOPE (Selective Conformal Optimized Pairwise Evaluation), a framework for selective pairwise judging with finite-sample statistical guarantees. Under exchangeability, SCOPE calibrates an acceptance threshold such that the error rate among non-abstained judgments is at most a user-specified level $α$. To provide SCOPE with a bias-neutral uncertainty signal, we introduce Bidirectional Preference Entropy (BPE), which queries the judge under both response positions, aggregates the implied preference probabilities to enforce invariance to response order, and converts the aggregated probability into an entropy-based uncertainty score. Across MT-Bench, RewardBench, and Chatbot Arena, BPE improves uncertainty quality over standard confidence proxies, providing a stronger selection signal that enables SCOPE to consistently meet the target risk level while retaining good coverage across judge scales. In particular, at $α= 0.10$, SCOPE consistently satisfies the risk bound across all benchmarks and judge scales (empirical risk $\approx 0.097$ to $0.099$), while retaining substantial coverage, reaching $0.89$ on RewardBench with Qwen-14B and $0.98$ on RewardBench with Qwen-32B. Compared to naïve baselines, SCOPE accepts up to $2.4\times$ more judgments on MT-Bench with Qwen-7B under the same target risk constraint, demonstrating that BPE enables reliable and high-coverage LLM-based evaluation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.