15개의 최첨단 AI 챗봇을 활용한 응급 정신과 진료 분류 시스템 연구
One-shot emergency psychiatric triage across 15 frontier AI chatbots
AI 챗봇은 건강 상담에 점점 더 많이 활용되고 있지만, 정신과 응급 상황 분류에서의 성능은 아직 충분히 연구되지 않았습니다. 정신과 응급 상황 분류는 환자의 생각, 행동, 상황 등을 종합적으로 고려해야 하므로, 객관적인 증거만으로는 판단하기 어려운 경우가 많습니다. 본 연구에서는 112개의 실제 환자 사례를 기반으로 제작된 시나리오를 사용하여, 15개의 최첨단 AI 챗봇이 정신과 응급 상황 분류를 얼마나 잘 수행하는지 평가했습니다. 각 시나리오는 4가지 등급(A: 일반, B: 1주일 이내 평가, C: 24~48시간 이내 평가, D: 즉시 응급 치료) 중 하나로 분류되었습니다. 시나리오는 9가지 정신 건강 문제 유형과 9가지 위험 요인을 포함하며, 28개의 유형-위험 조합으로 구성되었습니다. 각 조합별로 4개의 시나리오가 있으며, 각 등급별로 1개의 시나리오가 포함되었습니다. 각 시나리오는 실제 의료 전문가가 작성한 대화 형태로 구성되었으며, AI 챗봇은 각 시나리오를 분석하여 적절한 등급을 부여하는 과제를 수행했습니다. 결과적으로, 410개의 'D' 등급(즉시 응급 치료) 시나리오 중 23개(5.6%)에서 오류가 발생했으며, 모든 오류는 'C' 등급(24~48시간 이내 평가)으로 재분류되었습니다. AI 챗봇 모델의 평균 정확도는 42.0%에서 71.8% 사이였습니다. 'D' 등급 시나리오의 정확도가 94.3%로 가장 높았으며, 'B' 등급 시나리오의 정확도는 19.7%로 가장 낮았습니다. 평균 오차는 양수(+0.47 등급)였으며, 이는 전반적으로 과도한 분류를 나타냅니다. 오차의 편차는 중간 등급에서 가장 컸습니다. 모든 결과는 50명의 의료 전문가의 의견을 종합한 기준으로 검증되었습니다. 결론적으로, AI 챗봇은 충분한 임상 정보를 포함하는 사용자 메시지를 기반으로 정신과 응급 상황을 거의 오류 없이 식별할 수 있지만, 낮은 위험군 및 중간 위험군에 대해서는 과도한 분류 경향을 보였습니다.
AI chatbots are increasingly used for health advice, but their performance in psychiatric triage remains undercharacterized. Psychiatric triage is particularly challenging because urgency must often be inferred from thoughts, behavior, and context rather than from objective findings. We evaluated the performance of 15 frontier AI chatbots on psychiatric triage from realistic single-message disclosures using 112 clinical vignettes, each paired with 1 of 4 original benchmark triage labels: A, routine; B, assessment within 1 week; C, assessment within 24 to 48 hours; and D, emergency care now. Vignettes covered 9 psychiatric presentation clusters and 9 focal risk dimensions, organized into 28 presentation-by-risk groups. Each group contributed 4 distinct vignettes, with 1 vignette at each triage level. Each vignette was rendered as a realistic human-authored conversational query, and the AI chatbots were tasked with assigning a triage label from that disclosure. Emergency under-triage occurred in 23 of 410 level D trials (5.6%), and all under-triaged emergencies were reassigned to level C urgency. Across target models, average accuracy ranged from 42.0% to 71.8%. Accuracy was highest for level D vignettes (94.3%) and lowest for level B vignettes (19.7%). Mean signed ordinal error was positive (+0.47 triage levels), indicating net over-triage. Dispersion was highest around the middle triage levels. All results were confirmed relative to clinician consensus labels from 50 medical doctors. When presented with user messages containing sufficient clinical information, frontier AI chatbots thus recognized psychiatric emergencies as requiring urgent medical assessment with near-zero error rates, yet showed marked over-triage for low and intermediate risk presentations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.