LLM의 임상 진료 지침 탐지 및 준수 능력을 다중 턴 대화 환경에서 10년 단위로 평가하는 벤치마크
A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations
임상 진료 지침(CPG)은 근거 기반 의사 결정을 보장하고 환자 결과를 개선하는 데 중요한 역할을 합니다. 대규모 언어 모델(LLM)이 의료 분야에 점점 더 많이 활용되고 있지만, LLM이 대화 중에 임상 진료 지침을 얼마나 정확하게 식별하고 준수할 수 있는지에 대한 명확성은 아직 부족합니다. 이러한 격차를 해소하기 위해, 본 연구에서는 LLM의 임상 지침 탐지 및 준수 능력을 다중 턴 대화 환경에서 평가하는 자동화된 프레임워크인 CPGBench를 소개합니다. 지난 10년간 9개 국가/지역 및 2개의 국제 기구에서 발행된 3,418개의 CPG 문서를 수집했으며, 이 문서들은 24개의 전문 분야를 포괄합니다. 이러한 문서에서 32,155개의 임상 권장 사항을 추출했으며, 각 권장 사항에 대해 발행 기관, 날짜, 국가, 전문 분야, 권장 사항 강도, 증거 수준 등의 정보를 함께 기록했습니다. 각 권장 사항에 대해 하나의 다중 턴 대화를 생성하여 8개의 주요 LLM의 탐지 및 준수 능력을 평가했습니다. 분석 결과, 71.1%에서 89.6%의 권장 사항이 정확하게 식별되었지만, 해당 제목이 정확하게 참조되는 비율은 3.6%에서 29.7%에 불과하여, 지침의 내용과 그 출처를 정확하게 파악하는 데 차이가 있음을 알 수 있었습니다. 모델별 준수율은 21.8%에서 63.2%로 다양했으며, 이는 지침을 이해하는 것과 실제로 적용하는 것 사이의 큰 격차를 보여줍니다. 본 연구의 자동 분석 결과의 타당성을 확인하기 위해, 다양한 전문 분야의 56명의 임상의를 대상으로 종합적인 인간 평가를 추가적으로 실시했습니다. CPGBench는 현재까지 LLM이 어떤 임상 권장 사항을 대화 중에 식별하지 못하거나 준수하지 못하는지를 체계적으로 밝히는 최초의 벤치마크입니다. 각 임상 권장 사항이 광범위한 인구에 영향을 미칠 수 있으며, 임상 응용은 본질적으로 안전이 중요한 영역이므로, 이러한 격차를 해소하는 것은 실제 임상 환경에서 LLM을 안전하고 책임감 있게 활용하는 데 매우 중요합니다.
Clinical practice guidelines (CPGs) play a pivotal role in ensuring evidence-based decision-making and improving patient outcomes. While Large Language Models (LLMs) are increasingly deployed in healthcare scenarios, it is unclear to which extend LLMs could identify and adhere to CPGs during conversations. To address this gap, we introduce CPGBench, an automated framework benchmarking the clinical guideline detection and adherence capabilities of LLMs in multi-turn conversations. We collect 3,418 CPG documents from 9 countries/regions and 2 international organizations published in the last decade spanning across 24 specialties. From these documents, we extract 32,155 clinical recommendations with corresponding publication institute, date, country, specialty, recommendation strength, evidence level, etc. One multi-turn conversation is generated for each recommendation accordingly to evaluate the detection and adherence capabilities of 8 leading LLMs. We find that the 71.1%-89.6% recommendations can be correctly detected, while only 3.6%-29.7% corresponding titles can be correctly referenced, revealing the gap between knowing the guideline contents and where they come from. The adherence rates range from 21.8% to 63.2% in different models, indicating a large gap between knowing the guidelines and being able to apply them. To confirm the validity of our automatic analysis, we further conduct a comprehensive human evaluation involving 56 clinicians from different specialties. To our knowledge, CPGBench is the first benchmark systematically revealing which clinical recommendations LLMs fail to detect or adhere to during conversations. Given that each clinical recommendation may affect a large population and that clinical applications are inherently safety critical, addressing these gaps is crucial for the safe and responsible deployment of LLMs in real world clinical practice.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.