2602.15532v1 Feb 17, 2026 cs.AI

대규모 언어 모델 평가에서의 구성 타당도 정량화

Quantifying construct validity in large language model evaluations

R. Kearns
R. Kearns
Citations: 21
h-index: 2

LLM 커뮤니티는 종종 벤치마크 결과를 마치 일반적인 모델 능력과 동의어인 것처럼 보고한다. 그러나 벤치마크에는 테스트 세트 오염이나 주석자 오류와 같이 성능을 왜곡할 수 있는 문제가 존재할 수 있다. 벤치마크가 우리가 측정하고자 하는 능력을 나타내는 신뢰할 수 있는 지표인지 어떻게 알 수 있을까? 이 질문은 LLM 벤치마크의 구성 타당도(construct validity)에 관한 것이며, LLM 성능을 모델링하고 예측할 때 벤치마크 결과와 능력을 분리할 것을 요구한다. 사회과학자와 컴퓨터 과학자 모두 벤치마크 점수의 기저에 있는 능력을 식별하기 위해 잠재 요인 모델(latent factor models)과 스케일링 법칙(scaling laws)이라는 공식적인 모델을 제안한다. 그러나 두 기법 모두 구성 타당도 측면에서는 만족스럽지 않다. 잠재 요인 모델은 스케일링 법칙을 무시하며, 그 결과 추출된 능력은 종종 단순히 모델 크기를 대변하는 데 그친다. 스케일링 법칙은 측정 오차를 무시하며, 그 결과 추출된 능력은 해석이 불가능하고 관측된 벤치마크에 과적합된다. 본 논문은 대규모 LLM 벤치마크 결과로부터 해석 가능하고 일반화할 수 있는 능력을 추출하는 최초의 모델인 '구조화된 능력 모델(structured capabilities model)'을 제시한다. 저자는 OpenLLM 리더보드의 대규모 결과 표본에 이 모델과 두 가지 대안 모델을 적용했다. 구조화된 능력 모델은 간명 적합 지수(parsimonious fit indices)에서 잠재 요인 모델보다 우수한 성능을 보였으며, 스케일링 법칙보다 더 나은 분포 외(out-of-distribution) 벤치마크 예측력을 나타냈다. 이러한 개선은 기존의 어떤 접근 방식도 모델 규모와 능력을 적절한 방식으로 분리하지 못했기 때문에 가능했다. 스케일링 법칙처럼 모델 규모가 능력에 영향을 미쳐야 하고, 잠재 요인 모델처럼 이러한 능력이 측정 오차를 고려하여 관측된 결과에 영향을 미쳐야 한다. 이 두 가지 통찰을 결합함으로써, 구조화된 능력 모델은 LLM 평가에서 구성 타당도를 정량화하는 데 있어 더 나은 설명력과 예측력을 입증한다.

Original Abstract

The LLM community often reports benchmark results as if they are synonymous with general model capabilities. However, benchmarks can have problems that distort performance, like test set contamination and annotator error. How can we know that a benchmark is a reliable indicator of some capability that we want to measure? This question concerns the construct validity of LLM benchmarks, and it requires separating benchmark results from capabilities when we model and predict LLM performance. Both social scientists and computer scientists propose formal models - latent factor models and scaling laws - for identifying the capabilities underlying benchmark scores. However, neither technique is satisfactory for construct validity. Latent factor models ignore scaling laws, and as a result, the capabilities they extract often proxy model size. Scaling laws ignore measurement error, and as a result, the capabilities they extract are both uninterpretable and overfit to the observed benchmarks. This thesis presents the structured capabilities model, the first model to extract interpretable and generalisable capabilities from a large collection of LLM benchmark results. I fit this model and its two alternatives on a large sample of results from the OpenLLM Leaderboard. Structured capabilities outperform latent factor models on parsimonious fit indices, and exhibit better out-of-distribution benchmark prediction than scaling laws. These improvements are possible because neither existing approach separates model scale from capabilities in the appropriate way. Model scale should inform capabilities, as in scaling laws, and these capabilities should inform observed results up to measurement error, as in latent factor models. In combining these two insights, structured capabilities demonstrate better explanatory and predictive power for quantifying construct validity in LLM evaluations.

0 Citations
0 Influential
1 Altmetric
5.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!