2602.11674v1 Feb 12, 2026 cs.AI

벤치마크 건강 지수(Benchmark Health Index): LLM 벤치마크를 벤치마킹하기 위한 체계적 프레임워크

Benchmark Health Index: A Systematic Framework for Benchmarking the Benchmarks of LLMs

Bing Zhao
Bing Zhao
Citations: 40
h-index: 3
Longyuan Zhu
Longyuan Zhu
Citations: 0
h-index: 0
Hai-bo Hua
Hai-bo Hua
Citations: 5
h-index: 1
LI Miao
LI Miao
Citations: 14
h-index: 2

거대언어모델(LLM)은 급속도로 발전하고 있지만, 이러한 진보를 측정하는 데 사용되는 벤치마크의 신뢰성은 점차 낮아지고 있습니다. 점수 인플레이션과 선택적 결과 보고는 표준 벤치마크의 권위를 훼손시켰으며, 이로 인해 연구 커뮤니티는 어떤 평가 결과를 신뢰해야 할지 확신할 수 없는 상황에 놓였습니다. 이에 우리는 세 가지의 직교적이고 상호 보완적인 축을 기반으로 평가 데이터셋을 감사(audit)하는 순수 데이터 주도형 프레임워크인 '벤치마크 건강 지수(BHI)'를 제안합니다. 세 가지 축은 다음과 같습니다: (1) 능력 변별력(Capability Discrimination): 노이즈를 넘어 벤치마크가 모델 간 성능 차이를 얼마나 명확하게 구분하는지 측정; (2) 포화 저항성(Anti-Saturation): 천장 효과(ceiling effects)로 인해 변별력이 상실되기 전까지 남은 여유 공간을 추정하여 벤치마크의 기대 수명을 예측; (3) 영향력(Impact): 채택 범위와 관행 형성력을 통해 학계 및 산업 생태계 전반에 미치는 영향력을 정량화. 우리는 2025년의 대표적인 91개 모델의 기술 보고서에서 검증된 106개의 벤치마크를 정제하여 현재의 평가 환경을 체계적으로 특성 분석했습니다. BHI는 거시적 관점에서 벤치마크의 건강도를 정량화한 최초의 프레임워크로서, 벤치마크 선택에 대한 원칙적 근거를 제공하고 차세대 평가 프로토콜을 위한 동적 수명주기 관리를 가능하게 합니다.

Original Abstract

Large Language Models (LLMs) are advancing rapidly, yet the benchmarks used to measure this progress are becoming increasingly unreliable. Score inflation and selective reporting have eroded the authority of standard benchmarks, leaving the community uncertain about which evaluation results remain trustworthy. We introduce the Benchmark Health Index (BHI), a pure data-driven framework for auditing evaluation sets along three orthogonal and complementary axes: (1) Capability Discrimination, measuring how sharply a benchmark separates model performance beyond noise; (2) Anti-Saturation, estimating remaining headroom before ceiling effects erode resolution and thus the benchmark's expected longevity; and (3) Impact, quantifying influence across academic and industrial ecosystems via adoption breadth and practice-shaping power. By distilling 106 validated benchmarks from the technical reports of 91 representative models in 2025, we systematically characterize the evaluation landscape. BHI is the first framework to quantify benchmark health at a macro level, providing a principled basis for benchmark selection and enabling dynamic lifecycle management for next-generation evaluation protocols.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!