2605.06652v1 May 07, 2026 cs.LG

기준점이 없을 때: 정답 레이블 없이 비교 LLM 안전성 점수를 검증하는 방법

When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

Sushant Gautam
Sushant Gautam
Citations: 210
h-index: 9
Finn Schwall
Finn Schwall
Citations: 2
h-index: 1
Annika Willoch Olstad
Annika Willoch Olstad
Citations: 14
h-index: 1
Fernando Vallecillos Ruiz
Fernando Vallecillos Ruiz
Citations: 23
h-index: 3
Birk Torpmann-Hagen
Birk Torpmann-Hagen
Citations: 10
h-index: 3
Sunniva Bjørklund
Sunniva Bjørklund
Citations: 340
h-index: 8
Leon Moonen
Leon Moonen
Citations: 82
h-index: 6
K. Pettersen
K. Pettersen
Citations: 1
h-index: 1
M. A. Riegler
M. A. Riegler
Citations: 16
h-index: 2

많은 경우, 관련 언어, 산업 분야 또는 규제 체제에 대한 레이블이 있는 벤치마크가 존재하기 전에, 안전성을 평가하기 위해 여러 후보 언어 모델을 비교해야 합니다. 우리는 이러한 상황을 '벤치마크 없는 비교 안전성 점수'로 정의하고, 시나리오 기반 감사를 실제 배포 증거로 해석할 수 있는 조건을 명시합니다. 점수는 고정된 시나리오 패키지, 평가 기준, 감사자, 심사위원, 샘플링 구성 및 재실행 예산 하에서만 유효합니다. 정답 레이블이 없으므로, 우리는 정답 일치도를 '기능적 유효성 체인'으로 대체합니다. 이 체인은 다음과 같은 요소를 포함합니다. 제어된 안전-비안전 비교에 대한 반응성, 감사자 및 심사위원의 편향보다 목표 기반 변동의 우위, 그리고 재실행을 통한 안정성. 우리는 이 체인을 로컬 환경에서 사용 가능한 점수 측정 도구인 SimpleAudit에 구현하고, 노르웨이 안전성 패키지를 사용하여 검증했습니다. 안전하고 비안전한 대상 간의 AUROC 값은 0.89에서 1.00 사이이며, 목표 식별이 가장 큰 변동 요소를 차지합니다($η^2 ext{≈} 0.52$), 그리고 심각도 프로필은 10번의 재실행을 통해 안정화됩니다. 동일한 체인을 Petri에 적용한 결과, 두 모델 모두 허용됨을 알 수 있습니다. 상당한 차이는 체인 상위에서 발생하는 것으로, 즉, 주장의 타당성 검증 및 실제 배포 적합성에서 비롯됩니다. 노르웨이 공공 부문 조달 사례에서 Borealis와 Gemma 3을 비교한 결과, 더 안전한 모델은 시나리오 범주 및 위험 측정에 따라 달라짐을 보여줍니다. 따라서 점수, 차이 값, 중요 비율, 불확실성, 그리고 사용된 감사자 및 심사위원은 단일 순위로 통합하는 것이 아니라 함께 보고되어야 합니다.

Original Abstract

Many deployments must compare candidate language models for safety before a labeled benchmark exists for the relevant language, sector, or regulatory regime. We formalize this setting as benchmarkless comparative safety scoring and specify the contract under which a scenario-based audit can be interpreted as deployment evidence. Scores are valid only under a fixed scenario pack, rubric, auditor, judge, sampling configuration, and rerun budget. Because no labels are available, we replace ground-truth agreement with an instrumental-validity chain: responsiveness to a controlled safe-versus-abliterated contrast, dominance of target-driven variance over auditor and judge artifacts, and stability across reruns. We instantiate the chain in SimpleAudit, a local-first scoring instrument, and validate it on a Norwegian safety pack. Safe and abliterated targets separate with AUROC values between 0.89 and 1.00, target identity is the dominant variance component ($η^2 \approx 0.52$), and severity profiles stabilize by ten reruns. Applying the same chain to Petri shows that it admits both tools. The substantial differences arise upstream of the chain, in claim-contract enforcement and deployment fit. A Norwegian public-sector procurement case comparing Borealis and Gemma 3 demonstrates the resulting evidence in practice: the safer model depends on scenario category and risk measure. Consequently, scores, matched deltas, critical rates, uncertainty, and the auditor and judge used must be reported together rather than collapsed into a single ranking.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!