2603.05399v1 Mar 05, 2026 cs.AI

판사 신뢰성 검증 도구: LLM 판사의 신뢰성 스트레스 테스트

Judge Reliability Harness: Stress Testing the Reliability of LLM Judges

Sunishchal Dev
Sunishchal Dev
Citations: 32
h-index: 4
A. Sloan
A. Sloan
Citations: 397
h-index: 4
Joshua Kavner
Joshua Kavner
Citations: 21
h-index: 2
Nicholas Kong
Nicholas Kong
Citations: 1,880
h-index: 11
Morgan Sandler
Morgan Sandler
Citations: 37
h-index: 2

본 논문에서는 LLM 판사의 신뢰성을 테스트하는 검증 모음을 구축하기 위한 오픈 소스 라이브러리인 '판사 신뢰성 검증 도구'를 소개합니다. LLM 기반 채점이 AI 벤치마크에서 널리 사용됨에 따라, 이러한 방법의 신뢰성을 효율적으로 평가하기 위한 도구가 더욱 필요합니다. '판사 신뢰성 검증 도구'는 벤치마크 데이터셋과 LLM 판사 구성을 입력받아, 자유 응답 및 에이전트 기반 작업 형식에 대한 이진 판단 정확도 및 순위 평가 성능을 평가하는 신뢰성 테스트를 생성합니다. 우리는 안전, 설득력, 오용, 에이전트 행동을 포괄하는 네 가지 벤치마크에서 최첨단 LLM 판사 네 가지를 평가한 결과, 모델 및 교란 유형에 따라 성능에 상당한 차이가 있음을 확인했습니다. 이는 LLM 판사의 견고성을 향상시킬 수 있는 기회를 보여줍니다. 본 논문에서 평가한 어떤 판사도 '판사 신뢰성 검증 도구'를 사용하여 모든 벤치마크에서 일관된 신뢰성을 나타내지 않습니다. 예를 들어, 초기 실험에서 LLM 판사가 수행하는 작업의 능력을 판단하는 정확도를 측정했을 때, 간단한 텍스트 서식 변경, 패러프레이징, 내용의 변경, 그리고 LLM이 생성한 응답의 정답 레이블 변경과 같은 요소로 인해 일관성 문제가 발생하는 것을 확인했습니다. 본 도구의 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/RANDCorporation/judge-reliability-harness

Original Abstract

We present the Judge Reliability Harness, an open source library for constructing validation suites that test the reliability of LLM judges. As LLM based scoring is widely deployed in AI benchmarks, more tooling is needed to efficiently assess the reliability of these methods. Given a benchmark dataset and an LLM judge configuration, the harness generates reliability tests that evaluate both binary judgment accuracy and ordinal grading performance for free-response and agentic task formats. We evaluate four state-of-the-art judges across four benchmarks spanning safety, persuasion, misuse, and agentic behavior, and find meaningful variation in performance across models and perturbation types, highlighting opportunities to improve the robustness of LLM judges. No judge that we evaluated is uniformly reliable across benchmarks using our harness. For example, our preliminary experiments on judges revealed consistency issues as measured by accuracy in judging another LLM's ability to complete a task due to simple text formatting changes, paraphrasing, changes in verbosity, and flipping the ground truth label in LLM-produced responses. The code for this tool is available at: https://github.com/RANDCorporation/judge-reliability-harness

1 Citations
0 Influential
39.666066720281 Altmetric
199.3 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!