외래 진료 환경에서 대화형 진단 AI의 임상적 타당성 연구: 전향적 임상 연구
A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic
대규모 언어 모델(LLM) 기반 AI 시스템은 시뮬레이션 환경에서 환자와의 진단 및 관리 관련 대화에 대한 가능성을 보여주었습니다. 이러한 시스템을 실제 임상 환경에 적용하기 위해서는 엄격한 안전 기준 하에 실제 워크플로우에서의 평가가 필요합니다. 본 연구에서는 선도적인 학술 의료 센터의 응급 진료 환경에서, 대화형 AI 시스템인 Articulate Medical Intelligence Explorer (AMIE)를 사용하여 환자의 병력 청취 및 잠재적 진단 제시를 수행하고, 환자가 해당 내용을 의료진과 논의하도록 하는 전향적 단일군 타당성 연구를 진행했습니다. 100명의 성인 환자가 진료 5일 전까지 AMIE 텍스트 채팅 인터랙션을 완료했습니다. 본 연구는 AMIE의 대화 안전성 및 품질, 환자 및 의료진의 경험, 그리고 일차 진료 제공자와의 임상적 추론 능력 비교를 목표로 했습니다. 인간 안전 담당자가 모든 환자-AMIE 상호 작용을 실시간으로 모니터링했으며, 사전에 정의된 기준에 따라 상담을 중단해야 하는 경우는 없었습니다. 환자들은 높은 만족도를 보고했으며, AMIE와의 상호 작용 후 AI에 대한 긍정적인 태도를 보였습니다 (p < 0.001). 의료진은 AMIE의 결과물이 유용하며 진료 준비에 긍정적인 영향을 미친다고 평가했습니다. AMIE의 감별 진단(DDx)은 8주 후 차트 검토 결과, 90%의 경우 최종 진단을 포함했으며, 상위 3개 진단 정확도는 75%였습니다. AMIE와 의료진의 감별 진단 및 치료 계획에 대한 검토 결과, 전반적인 감별 진단 및 치료 계획의 품질이 유사했으며, 감별 진단에 대해서는 유의미한 차이가 없었습니다 (p = 0.6). 의료진은 치료의 실용성(p = 0.003) 및 비용 효율성(p = 0.004) 측면에서 AMIE보다 더 높은 평가를 받았습니다. 추가 연구가 필요하지만, 본 연구는 실제 환경에서 대화형 AI의 초기 타당성, 안전성 및 사용자 수용 가능성을 보여주며, 임상 적용을 위한 중요한 단계입니다.
Large language model (LLM)-based AI systems have shown promise for patient-facing diagnostic and management conversations in simulated settings. Translating these systems into clinical practice requires assessment in real-world workflows with rigorous safety oversight. We report a prospective, single-arm feasibility study of an LLM-based conversational AI, the Articulate Medical Intelligence Explorer (AMIE), conducting clinical history taking and presentation of potential diagnoses for patients to discuss with their provider at urgent care appointments at a leading academic medical center. 100 adult patients completed an AMIE text-chat interaction up to 5 days before their appointment. We sought to assess the conversational safety and quality, patient and clinician experience, and clinical reasoning capabilities compared to primary care providers (PCPs). Human safety supervisors monitored all patient-AMIE interactions in real time and did not need to intervene to stop any consultations based on pre-defined criteria. Patients reported high satisfaction and their attitudes towards AI improved after interacting with AMIE (p < 0.001). PCPs found AMIE's output useful with a positive impact on preparedness. AMIE's differential diagnosis (DDx) included the final diagnosis, per chart review 8 weeks post-encounter, in 90% of cases, with 75% top-3 accuracy. Blinded assessment of AMIE and PCP DDx and management (Mx) plans suggested similar overall DDx and Mx plan quality, without significant differences for DDx (p = 0.6) and appropriateness and safety of Mx (p = 0.1 and 1.0, respectively). PCPs outperformed AMIE in the practicality (p = 0.003) and cost effectiveness (p = 0.004) of Mx. While further research is needed, this study demonstrates the initial feasibility, safety, and user acceptance of conversational AI in a real-world setting, representing crucial steps towards clinical translation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.