2601.05500v3 Jan 09, 2026 cs.AI

불확실성 하에서 인간-AI 동등성의 착시: 확률적 패러다임을 통한 진실된 데이터 탐색

The Illusion of Human AI Parity Under Uncertainty: Navigating Elusive Ground Truth via a Probabilistic Paradigm

Aparna Elangovan
Aparna Elangovan
Citations: 291
h-index: 7
Lei Xu
Lei Xu
Citations: 53
h-index: 2
Mahsa Elyasi
Mahsa Elyasi
Citations: 61
h-index: 3
İ. Akdulum
İ. Akdulum
Citations: 105
h-index: 5
Mehmet Aksakal
Mehmet Aksakal
Citations: 78
h-index: 6
Enes Gurun
Enes Gurun
Citations: 54
h-index: 4
Saab Mansour
Saab Mansour
Citations: 0
h-index: 0
Ravid Shwartz Ziv
Ravid Shwartz Ziv
Citations: 0
h-index: 0
Dan Roth
Dan Roth
Citations: 51
h-index: 2
Brian Hur
Brian Hur
Citations: 114
h-index: 1
Karin Verspoor
Karin Verspoor
Citations: 2
h-index: 1

대규모 언어 모델(LLM) 및 이미지 인식 모델을 포함한 AI 시스템의 상대적 성능을 평가할 때, 일반적으로 전문가의 답변에서 발생하는 불확실성의 영향을 간과합니다. 이러한 모호성은 인간의 선호도뿐만 아니라 의학 분야와 같이 불확실성이 만연한 안전 관련 분야에서도 중요한 영향을 미칩니다. 본 논문에서는 확률적 패러다임을 소개하여, 일반적으로 전문가가 높은 점수를 얻으려면 정확한 답변에 대한 높은 확신이 필요하지만, 답변의 다양성이 높은 데이터 세트에서는 무작위 라벨러와 전문가 간의 성능 차이가 미미할 수 있다는 이론적 근거를 제시합니다. 따라서, 평가 데이터에서 불확실성을 무시하면, 비전문가가 전문가와 유사한 성능을 보인다는 오해를 불러일으킬 수 있습니다. 본 연구에서는 확률적 패러다임을 활용하여, 답변의 다양성을 고려하여 전문가 또는 시스템이 달성할 수 있는 예상 정확도와 예상 F1 점수를 추정하는 개념을 제시합니다. 우리의 연구 결과는 시스템의 성능을 평가할 때, 평가 결과를 정확한 답변의 확률(일반적으로 전문가 간의 합의율로 측정)에 따라 분류해야 한다는 권고 사항을 제시합니다. 전체 성능이 80% 미만으로 떨어지는 경우, 이러한 분류가 특히 중요합니다. 분류된 평가를 통해 성능 비교는 더욱 신뢰할 수 있게 되며, 주요 혼란 요인인 불확실성의 영향을 완화할 수 있습니다.

Original Abstract

Benchmarking the relative capabilities of AI systems, including Large Language Models (LLMs) and Vision Models, typically ignores the impact of uncertainty in the underlying ground truth answers from experts. This ambiguity is not just limited to human preferences, but is also consequential even in safety critical domains such as medicine where uncertainty is pervasive. In this paper, we introduce a probabilistic paradigm to theoretically explain how - high certainty in ground truth answers is almost always necessary for even an expert to achieve high scores, whereas in datasets with high variation in ground truth answers there may be little difference between a random labeller and an expert. Therefore, ignoring uncertainty in ground truth evaluation data can result in the misleading conclusion that a non-expert has similar performance to that of an expert. Using the probabilistic paradigm, we thus bring forth the concepts of expected accuracy and expected F1 to estimate the score an expert human or system can achieve given ground truth answer variability. Our work leads to the recommendation that when establishing the capability of a system, results should be stratified by probability of the ground truth answer, typically measured by the agreement rate of ground truth experts. Stratification becomes critical when the overall performance drops below a threshold of 80\%. Under stratified evaluation, performance comparison becomes more reliable in high certainty bins, mitigating the effect of the key confounding factor -- uncertainty.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!