2604.12191v1 Apr 14, 2026 cs.AI

점수를 넘어: 세분화된 능력 기반의 대규모 언어 모델 진단 평가

Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities

Bo Ding
Bo Ding
Citations: 180
h-index: 7
Qiang Wang
Qiang Wang
Citations: 4
h-index: 1
Dawei Feng
Dawei Feng
Citations: 164
h-index: 7
Zhe Wang
Zhe Wang
Citations: 50
h-index: 3
Xu Zhang
Xu Zhang
Citations: 0
h-index: 0
Xudong Gong
Xudong Gong
Citations: 843
h-index: 5
Jiacheng Qin
Jiacheng Qin
Citations: 0
h-index: 0
Jiaqi Liao
Jiaqi Liao
Citations: 9
h-index: 2

현재 대규모 언어 모델의 평가는 다양한 작업에서의 성능을 하나의 점수로 통합하여 제시합니다. 이는 미세한 능력 차이를 가리고, 특정 작업에 대한 모델 개선 및 능력 기반 모델 선택을 제한합니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 모델의 다양한 미세한 능력들을 추정하는 인지 진단 프레임워크를 제안합니다. 수학 분야에서는 인지 이론 및 도메인 지식을 기반으로 35차원의 능력 분류 체계를 구축했습니다. 제안하는 프레임워크는 다차원 응답 이론(Item Response Theory)과 항목-능력 연관 행렬을 사용하여 미세한 능력 수준을 추정하며, 이를 통해 벤치마크의 미지 항목(문제)에 대한 성능을 예측할 수 있습니다. 41개의 모델을 평가한 결과, 제안하는 방법은 높은 기준 타당성, 벤치마크 간 일관된 능력 추정, 그리고 벤치마크 내에서 0.80에서 0.89, 벤치마크 간에서는 0.77에서 0.86의 AUC 값을 가지며, 단순 기준 모델을 훨씬 능가하는 정확한 예측 성능을 보였습니다. 또한, 이 프레임워크는 과학 분야 전반에 걸쳐 적용 가능하며, 물리학(27차원), 화학(58차원), 컴퓨터 과학(12차원) 분야에서도 일관된 진단 성능을 보입니다. 본 연구는 미세한 능력 평가를 위한 체계적인 프레임워크를 제시하며, 이는 타겟 훈련, 능력 기반 모델 선택, 그리고 능력에 대한 고려가 반영된 벤치마크 설계에 잠재적인 응용 가능성을 가지고 있습니다.

Original Abstract

Current evaluations of large language models aggregate performance across diverse tasks into single scores. This obscures fine-grained ability variation, limiting targeted model improvement and ability-guided selection for specific tasks. Motivated by this gap, we propose a cognitive diagnostic framework that estimates model abilities across multiple fine-grained dimensions. For mathematics, we construct a 35-dimensional ability taxonomy grounded in cognitive theory and domain knowledge. The framework employs multidimensional Item Response Theory with an item-ability association matrix to estimate fine-grained ability levels, which in turn enable prediction of performance on unseen items (questions of benchmark). Evaluated on 41 models, our approach demonstrates strong criterion validity, consistent ability estimates across benchmarks, and accurate prediction of unseen items with AUC ranging from 0.80 to 0.89 within benchmarks and from 0.77 to 0.86 across benchmarks, substantially exceeding trivial baselines. The framework generalizes across scientific domains, producing consistent diagnostic performance in physics (27 dimensions), chemistry (58 dimensions), and computer science (12 dimensions). This work establishes a principled framework for fine-grained assessment of abilities, with potential applications in targeted training, ability-guided model selection, and ability-aware benchmark design.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!