2603.24999v1 Mar 26, 2026 stat.AP

새로운 확장성 계수를 이용한 효율적인 문제 성능 저하 항목 탐지

Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients

Michael Hardy
Michael Hardy
Citations: 110
h-index: 5
Joshua B. Gilbert
Joshua B. Gilbert
Citations: 93
h-index: 7
Benjamin Domingue
Benjamin Domingue
Citations: 6,364
h-index: 42

대규모 AI 벤치마크부터 교실 평가에 이르기까지, 평가의 타당성은 개별 문제의 품질에 크게 의존하지만, 현대 평가 도구는 종종 최소한의 심리 측정 검증을 거친 수천 개의 문제들을 포함합니다. 본 연구에서는 문제 간 등각 회귀(interitem isotonic regression)를 기반으로 하는 새로운 종류의 비모수 확장성 계수를 제시하여, 전반적으로 성능이 낮은 문제(예: 오타, 모호한 표현, 개념 불일치)를 효율적으로 탐지합니다. 핵심적인 기여는 부호화된 등각 $R^2$이며, 이는 켄달의 $ au$를 통해 연관성의 방향을 유지하면서, 한 문제의 변동 중 다른 문제의 단조 함수에 의해 설명될 수 있는 최대 비율을 측정합니다. 이러한 쌍별 계수를 결합하면, 문제 수준의 점수를 얻을 수 있으며, 이는 선형성을 가정하지 않고, 매개변수 기반의 문제 응답 모델에 의존하지 않고도 문제성 있는 문제와 적절한 문제를 명확하게 구분합니다. 부호화된 등각 $R^2$는 단조 예측 변수 중에서 극단적인 값을 가지며(즉, 어떤 두 문제 사이에서도 가장 강력한 단조 신호를 추출합니다), 이러한 최적성 특성이 실제 문제 탐지 능력으로 직접적으로 연결됨을 보여줍니다. 세 개의 AI 벤치마크 데이터셋(HS Math, GSM8K, MMLU)과 두 개의 인간 평가 데이터셋에서, 부호화된 등각 $R^2$는 문제성 있는 문제를 좋은 문제보다 더 잘 순위화하는 데 있어 일관되게 최상위 수준의 AUC를 달성하며, 기존의 고전적인 검정 이론, 문제 응답 이론, 차원성 기반 진단 방법들을 능가하거나 동등한 성능을 보입니다. 중요한 점은, 본 방법이 AI 평가에서 흔히 나타나는 작은 표본 크기/큰 변수 수 조건에서도 견고하며, 몇 초 만에 계산 가능한 이변량 단조 함수만 필요하며, 추가적인 수정 없이 이진, 순차, 연속 등 다양한 유형의 문제를 처리할 수 있다는 것입니다. 본 연구에서 제시하는 방법은 가볍고 모델에 의존하지 않는 필터로서, 현대의 대규모 평가 시스템에서 결함 있는 문제를 찾는 데 필요한 검토자의 노력을 크게 줄일 수 있습니다.

Original Abstract

The validity of assessments, from large-scale AI benchmarks to human classrooms, depends on the quality of individual items, yet modern evaluation instruments often contain thousands of items with minimal psychometric vetting. We introduce a new family of nonparametric scalability coefficients based on interitem isotonic regression for efficiently detecting globally bad items (e.g., miskeyed, ambiguously worded, or construct-misaligned). The central contribution is the signed isotonic $R^2$, which measures the maximal proportion of variance in one item explainable by a monotone function of another while preserving the direction of association via Kendall's $τ$. Aggregating these pairwise coefficients yields item-level scores that sharply separate problematic items from acceptable ones without assuming linearity or committing to a parametric item response model. We show that the signed isotonic $R^2$ is extremal among monotone predictors (it extracts the strongest possible monotone signal between any two items) and show that this optimality property translates directly into practical screening power. Across three AI benchmark datasets (HS Math, GSM8K, MMLU) and two human assessment datasets, the signed isotonic $R^2$ consistently achieves top-tier AUC for ranking bad items above good ones, outperforming or matching a comprehensive battery of classical test theory, item response theory, and dimensionality-based diagnostics. Crucially, the method remains robust under the small-n/large-p conditions typical of AI evaluation, requires only bivariate monotone fits computable in seconds, and handles mixed item types (binary, ordinal, continuous) without modification. It is a lightweight, model-agnostic filter that can materially reduce the reviewer effort needed to find flawed items in modern large-scale evaluation regimes.

0 Citations
0 Influential
21 Altmetric
105.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!