2604.21549v1 Apr 23, 2026 cs.AI

멀티 캘리브레이션 LLM을 이용한 편향 없는 유병률 추정

Unbiased Prevalence Estimation with Multicalibrated LLMs

Niek Tax
Niek Tax
Eindhoven University of Technology
Citations: 1,570
h-index: 17
Fridolin Linder
Fridolin Linder
Citations: 9
h-index: 2
Thomas J. Leeper
Thomas J. Leeper
Citations: 4,200
h-index: 19
Daniel Haimovich
Daniel Haimovich
Citations: 157
h-index: 3
Lorenzo Perini
Lorenzo Perini
Citations: 370
h-index: 8
Milan Vojnovic
Milan Vojnovic
Citations: 21
h-index: 2

불완전한 측정 장치(진단 검사, 분류기 또는 대규모 언어 모델)를 사용하여 인구 집단 내 특정 범주의 유병률을 추정하는 것은 과학, 공중 보건, 그리고 온라인 신뢰 및 안전에 있어 매우 중요합니다. 기존 방법은 알려진 장치 오류율을 보정하지만, 이러한 비율이 모든 집단에 대해 일정하다고 가정합니다. 본 연구에서는 이러한 가정이 공변량 변화(covariate shift) 하에서 실패하며, 입력 특징에 조건부로 캘리브레이션을 적용하는 멀티 캘리브레이션은 이러한 변화 하에서 편향 없는 유병률 추정에 충분함을 보여줍니다. 기존의 캘리브레이션 및 양화 방법은 이러한 보장을 제공하지 못합니다. 본 연구는 최근 공정성에 대한 이론적 연구를 오랜 기간 지속되어 온 측정 문제와 연결하며, 이는 거의 모든 학문 분야에 걸쳐 있습니다. 시뮬레이션 결과, 기존 방법은 변화의 크기가 증가함에 따라 편향이 증가하는 반면, 멀티 캘리브레이션 추정기는 거의 0에 가까운 편향을 유지합니다. 본 연구에서는 주로 LLM에 초점을 맞추지만, 이론적 결과는 모든 분류 모델에 적용됩니다. 미국 사회 조사(American Community Survey)를 사용하여 미국 주별 고용 유병률을 추정하고, LLM을 사용하여 네 개 국가의 정치 텍스트를 분류하는 두 가지 실증적 응용 사례는 멀티 캘리브레이션이 실제로 편향을 크게 줄이는 것을 보여주며, 동시에 캘리브레이션 데이터가 대상 집단 간에 차이가 발생할 수 있는 주요 특징 차원을 포함해야 함을 강조합니다.

Original Abstract

Estimating the prevalence of a category in a population using imperfect measurement devices (diagnostic tests, classifiers, or large language models) is fundamental to science, public health, and online trust and safety. Standard approaches correct for known device error rates but assume these rates remain stable across populations. We show this assumption fails under covariate shift and that multicalibration, which enforces calibration conditional on the input features rather than just on average, is sufficient for unbiased prevalence estimation under such shift. Standard calibration and quantification methods fail to provide this guarantee. Our work connects recent theoretical work on fairness to a longstanding measurement problem spanning nearly all academic disciplines. A simulation confirms that standard methods exhibit bias growing with shift magnitude, while a multicalibrated estimator maintains near-zero bias. While we focus the discussion mostly on LLMs, our theoretical results apply to any classification model. Two empirical applications -- estimating employment prevalence across U.S. states using the American Community Survey, and classifying political texts across four countries using an LLM -- demonstrate that multicalibration substantially reduces bias in practice, while highlighting that calibration data should cover the key feature dimensions along which target populations may differ.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!