정확성에서 준비성으로: 인간-AI 의사결정을 위한 지표 및 벤치마크
From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making
인공지능(AI) 시스템은 인간의 의사결정 과정에서 협력 도구로 활용되고 있습니다. 그러나 현재의 평가 방식은 주로 모델의 정확성에 초점을 맞추고 있으며, 인간-AI 팀이 안전하고 효과적으로 협력할 수 있는 준비 상태인지에 대한 평가는 부족합니다. 경험적 증거에 따르면, 많은 실패는 잘못된 의존성에서 비롯되며, 여기에는 AI가 오류를 범할 때 과도하게 의존하거나, 도움이 될 때 충분히 활용하지 못하는 경우가 포함됩니다. 본 논문에서는 팀의 준비 상태를 중심으로 인간-AI 의사결정을 평가하기 위한 측정 프레임워크를 제안합니다. 우리는 결과, 의존성 행동, 안전 신호, 그리고 시간 경과에 따른 학습을 포괄하는 네 가지 평가 지표 분류 체계를 소개하고, 이러한 지표들을 인간-AI 시스템의 도입 및 협업 전반에 걸친 이해-통제-개선(U-C-I) 라이프사이클과 연결합니다. 본 프레임워크는 모델의 특성이나 주관적인 신뢰도 보고서가 아닌, 실제 상호작용 데이터를 활용하여 평가를 수행함으로써, 실제 배포 환경에서 중요한 교정, 오류 복구, 그리고 거버넌스 측면을 평가할 수 있도록 합니다. 우리는 이를 통해 인간-AI 시스템의 준비 상태에 대한 보다 비교 가능한 벤치마크를 개발하고, 누적적인 연구를 촉진하여 더 안전하고 책임감 있는 인간-AI 협업을 가능하게 하는 것을 목표로 합니다.
Artificial intelligence (AI) systems are deployed as collaborators in human decision-making. Yet, evaluation practices focus primarily on model accuracy rather than whether human-AI teams are prepared to collaborate safely and effectively. Empirical evidence shows that many failures arise from miscalibrated reliance, including overuse when AI is wrong and underuse when it is helpful. This paper proposes a measurement framework for evaluating human-AI decision-making centered on team readiness. We introduce a four part taxonomy of evaluation metrics spanning outcomes, reliance behavior, safety signals, and learning over time, and connect these metrics to the Understand-Control-Improve (U-C-I) lifecycle of human-AI onboarding and collaboration. By operationalizing evaluation through interaction traces rather than model properties or self-reported trust, our framework enables deployment-relevant assessment of calibration, error recovery, and governance. We aim to support more comparable benchmarks and cumulative research on human-AI readiness, advancing safer and more accountable human-AI collaboration.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.