2604.05460v1 Apr 07, 2026 stat.ME

LLM 평가를 텐서 완성으로: 저랭크 구조와 준매개변수 효율성

LLM Evaluation as Tensor Completion: Low Rank Structure and Semiparametric Efficiency

David Simchi-Levi
David Simchi-Levi
Citations: 47
h-index: 4
Jiachun Li
Jiachun Li
Citations: 11
h-index: 2
Will Wei Sun
Will Wei Sun
Citations: 22
h-index: 2

대규모 언어 모델(LLM) 평가 플랫폼은 점점 더 많은 양의 쌍별 인간 판단에 의존하고 있습니다. 이러한 데이터는 노이즈가 많고, 희소하며, 불균일하지만, 리더보드는 제한적인 불확실성 정량화와 함께 보고됩니다. 본 연구에서는 이를 브래들리-테리-루스(Bradley-Terry-Luce) 모델 하에서의 쌍별 비교를 통해 관찰되는 저랭크 잠재 점수 텐서에 대한 준매개변수 추론 문제로 다룹니다. 이는 LLM 평가를 구조화된 관찰, 불균일 샘플링 및 쌍별 비교를 특징으로 하는 새로운 텐서 완성 문제로 재구성합니다. 우리의 목표는 능력 차이와 같은 선형 추정치뿐만 아니라 승률과 같은 비선형 추정치를 포함하는 부드러운 함수 ψ(T*)입니다. 우리는 저랭크 접선 공간에서의 정보 연산자, 효율적인 영향 함수 및 준매개변수 효율성 경계를 도출하고, 비아시아적 특성을 가지는 정보 연산자가 접선 공간 투영과 교환되지 않아 발생하는 문제를 해결하기 위해, 로컬 피셔 정보(Fisher information)를 균등화하고 최적의 샘플 복잡도에서 안정적인 추론을 복원하는 스코어-화이트닝(score-whitening) 방법을 도입하여, 점근적 정규성을 갖는 단일 단계 편향 제거 추정치를 구성합니다. 본 연구의 결과는 LLM 평가에서의 불확실성 정량화를 위한 체계적인 프레임워크를 제공하며, 더 넓게는 쌍별 데이터로부터 저랭크 구조에 대한 추론을 위한 프레임워크를 제공합니다.

Original Abstract

Large language model (LLM) evaluation platforms increasingly rely on pairwise human judgments. These data are noisy, sparse, and non-uniform, yet leaderboards are reported with limited uncertainty quantification. We study this as semiparametric inference for a low-rank latent score tensor observed through pairwise comparisons under Bradley-Terry-Luce-type models. This places LLM evaluation in a new tensor completion setting with structured observations, non-uniform sampling, and pairwise contrasts. Our target is a smooth functional $ψ(T^\star)$, including linear estimands such as ability gaps and nonlinear ones such as win probabilities. We derive the information operator on the low-rank tangent space, the efficient influence function, and the semiparametric efficiency bound, then construct a one-step debiased estimator with asymptotic normality. A central challenge is that the information operator is anisotropic and does not commute with the tangent-space projection, creating a bottleneck absent from isotropic models. We introduce a score-whitening method that equalizes local Fisher information and restores stable inference at the optimal sample-complexity scale. Our results provide a principled framework for uncertainty quantification in LLM evaluation and more broadly for inference on low-rank structures from pairwise data.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!