정답을 모를 때 LLM 평가하기: 비교 신호를 활용한 수학적 추론의 통계적 평가
Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals
LLM에서 수학적 추론을 평가하는 것은 제한된 벤치마크 크기와 모델의 고유한 확률성 때문에 어려움을 겪습니다. 이는 높은 분산의 정확도 추정치와 플랫폼 간 불안정한 순위로 이어집니다. 어려운 문제에서 LLM은 정확한 최종 답변을 생성하지 못할 수 있지만, 여전히 두 후보 솔루션 중 어느 것이 더 나은지 나타내는 신뢰할 수 있는 쌍대 비교 신호를 제공할 수 있습니다. 우리는 이러한 관찰을 활용하여 표준 레이블 결과와 모델이 보조 추론 과정을 평가하여 얻은 쌍대 비교 신호를 결합하는 통계적으로 효율적인 평가 프레임워크를 설계했습니다. 이러한 비교 신호를 제어 변수로 취급하여, 보조 추론 과정이 관찰되는 경우 효율적 영향 함수(EIF)를 기반으로 하는 준매개변수 추정기를 개발했습니다. 이를 통해 준매개변수 효율성 경계를 달성하고, 단순한 평균화에 비해 분산을 엄격하게 줄이며, 원리 기반의 불확실성 정량화를 위한 점근적 정규성을 갖는 단일 단계 추정기를 얻을 수 있습니다. 시뮬레이션 결과, 우리의 단일 단계 추정기는 모델 출력 노이즈가 증가함에 따라 순위 정확도를 크게 향상시켰습니다. GPQA Diamond, AIME 2025 및 GSM8K 데이터 세트에 대한 실험은 기존 평가 방법이 불안정한 작은 샘플 환경에서 더욱 정확한 성능 추정 및 더 안정적인 모델 순위를 제공함을 보여줍니다.
Evaluating mathematical reasoning in LLMs is constrained by limited benchmark sizes and inherent model stochasticity, yielding high-variance accuracy estimates and unstable rankings across platforms. On difficult problems, an LLM may fail to produce a correct final answer, yet still provide reliable pairwise comparison signals indicating which of two candidate solutions is better. We leverage this observation to design a statistically efficient evaluation framework that combines standard labeled outcomes with pairwise comparison signals obtained by having models judge auxiliary reasoning chains. Treating these comparison signals as control variates, we develop a semiparametric estimator based on the efficient influence function (EIF) for the setting where auxiliary reasoning chains are observed. This yields a one-step estimator that achieves the semiparametric efficiency bound, guarantees strict variance reduction over naive sample averaging, and admits asymptotic normality for principled uncertainty quantification. Across simulations, our one-step estimator substantially improves ranking accuracy, with gains increasing as model output noise grows. Experiments on GPQA Diamond, AIME 2025, and GSM8K further demonstrate more precise performance estimation and more reliable model rankings, especially in small-sample regimes where conventional evaluation is pretty unstable.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.