LLM 평가를 텐서 완성으로: 저랭크 구조와 준매개변수 효율성
LLM Evaluation as Tensor Completion: Low Rank Structure and Semiparametric Efficiency
대규모 언어 모델(LLM) 평가 플랫폼은 점점 더 많은 양의 쌍별 인간 판단에 의존하고 있습니다. 이러한 데이터는 노이즈가 많고, 희소하며, 불균일하지만, 리더보드는 제한적인 불확실성 정량화와 함께 보고됩니다. 본 연구에서는 이를 브래들리-테리-루스(Bradley-Terry-Luce) 모델 하에서의 쌍별 비교를 통해 관찰되는 저랭크 잠재 점수 텐서에 대한 준매개변수 추론 문제로 다룹니다. 이는 LLM 평가를 구조화된 관찰, 불균일 샘플링 및 쌍별 비교를 특징으로 하는 새로운 텐서 완성 문제로 재구성합니다. 우리의 목표는 능력 차이와 같은 선형 추정치뿐만 아니라 승률과 같은 비선형 추정치를 포함하는 부드러운 함수 ψ(T*)입니다. 우리는 저랭크 접선 공간에서의 정보 연산자, 효율적인 영향 함수 및 준매개변수 효율성 경계를 도출하고, 비아시아적 특성을 가지는 정보 연산자가 접선 공간 투영과 교환되지 않아 발생하는 문제를 해결하기 위해, 로컬 피셔 정보(Fisher information)를 균등화하고 최적의 샘플 복잡도에서 안정적인 추론을 복원하는 스코어-화이트닝(score-whitening) 방법을 도입하여, 점근적 정규성을 갖는 단일 단계 편향 제거 추정치를 구성합니다. 본 연구의 결과는 LLM 평가에서의 불확실성 정량화를 위한 체계적인 프레임워크를 제공하며, 더 넓게는 쌍별 데이터로부터 저랭크 구조에 대한 추론을 위한 프레임워크를 제공합니다.
Large language model (LLM) evaluation platforms increasingly rely on pairwise human judgments. These data are noisy, sparse, and non-uniform, yet leaderboards are reported with limited uncertainty quantification. We study this as semiparametric inference for a low-rank latent score tensor observed through pairwise comparisons under Bradley-Terry-Luce-type models. This places LLM evaluation in a new tensor completion setting with structured observations, non-uniform sampling, and pairwise contrasts. Our target is a smooth functional $ψ(T^\star)$, including linear estimands such as ability gaps and nonlinear ones such as win probabilities. We derive the information operator on the low-rank tangent space, the efficient influence function, and the semiparametric efficiency bound, then construct a one-step debiased estimator with asymptotic normality. A central challenge is that the information operator is anisotropic and does not commute with the tangent-space projection, creating a bottleneck absent from isotropic models. We introduce a score-whitening method that equalizes local Fisher information and restores stable inference at the optimal sample-complexity scale. Our results provide a principled framework for uncertainty quantification in LLM evaluation and more broadly for inference on low-rank structures from pairwise data.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.