LLM 기반 평가를 활용한 안과 환자 질의에 대한 의료 특화 대규모 언어 모델 챗봇의 임상 검증
Clinical Validation of Medical-based Large Language Model Chatbots on Ophthalmic Patient Queries with LLM-based Evaluation
도메인 특화 대규모 언어 모델(LLM)이 안과 분야에서 환자 교육, 중증도 분류 및 임상 의사 결정을 지원하는 데 점점 더 많이 사용됨에 따라, 안전성과 정확성을 보장하기 위한 엄격한 평가가 필수적이 되었다. 본 연구는 안과 관련 환자 질의에 답변하는 데 있어 4가지 소형 의료용 LLM인 Meerkat-7B, BioMistral-7B, OpenBioLLM-8B, MedLLaMA3-v20을 평가하고, 임상의 평가 대비 LLM 기반 평가의 타당성을 분석하였다. 이 단면 연구에서는 180개의 안과 환자 질의에 대해 각 모델이 답변을 생성하여 총 2,160개의 응답이 도출되었다. 자원의 효율적인 배포를 위해 100억 개 미만의 파라미터 크기를 가진 모델들이 선정되었다. 답변은 경력이 상이한 3명의 안과 전문의와 GPT-4-Turbo에 의해 평가되었으며, 안전성, 합의 및 맥락, 객관성, 재현성, 설명 가능성을 평가하는 S.C.O.R.E. 프레임워크를 사용하여 5점 리커트 척도로 점수가 부여되었다. LLM 평가와 임상의 평가 간의 일치도는 스피어만 순위 상관분석, 켄달 타우 통계량 및 커널 밀도 추정 분석을 통해 평가되었다. Meerkat-7B는 수석 전문의로부터 평균 3.44점, 전문의로부터 4.08점, 전공의로부터 4.18점을 받아 가장 높은 성과를 기록했다. 반면 MedLLaMA3-v20은 가장 저조한 성과를 보였으며, 응답의 25.5%가 조작된 용어를 포함한 환각(hallucination) 또는 임상적으로 오해의 소지가 있는 내용을 포함하였다. GPT-4-Turbo 평가는 전반적으로 임상의 평가와 강한 일치(스피어만 로 0.80, 켄달 타우 0.67)를 보였으나, 수석 전문의들은 더 보수적으로 평가하는 경향이 있었다. 종합적으로 의료용 LLM은 안전한 안과 질의응답에 대한 잠재력을 보여주었으나 임상적 깊이와 합의점에서는 여전히 격차가 존재하였다. 이는 대규모 벤치마킹을 위한 LLM 기반 평가의 타당성을 뒷받침하며, 안전한 임상 도입을 위해서는 자동화된 평가와 임상의 검토가 결합된 하이브리드 프레임워크가 필요함을 시사한다.
Domain specific large language models are increasingly used to support patient education, triage, and clinical decision making in ophthalmology, making rigorous evaluation essential to ensure safety and accuracy. This study evaluated four small medical LLMs Meerkat-7B, BioMistral-7B, OpenBioLLM-8B, and MedLLaMA3-v20 in answering ophthalmology related patient queries and assessed the feasibility of LLM based evaluation against clinician grading. In this cross sectional study, 180 ophthalmology patient queries were answered by each model, generating 2160 responses. Models were selected for parameter sizes under 10 billion to enable resource efficient deployment. Responses were evaluated by three ophthalmologists of differing seniority and by GPT-4-Turbo using the S.C.O.R.E. framework assessing safety, consensus and context, objectivity, reproducibility, and explainability, with ratings assigned on a five point Likert scale. Agreement between LLM and clinician grading was assessed using Spearman rank correlation, Kendall tau statistics, and kernel density estimate analyses. Meerkat-7B achieved the highest performance with mean scores of 3.44 from Senior Consultants, 4.08 from Consultants, and 4.18 from Residents. MedLLaMA3-v20 performed poorest, with 25.5 percent of responses containing hallucinations or clinically misleading content, including fabricated terminology. GPT-4-Turbo grading showed strong alignment with clinician assessments overall, with Spearman rho of 0.80 and Kendall tau of 0.67, though Senior Consultants graded more conservatively. Overall, medical LLMs demonstrated potential for safe ophthalmic question answering, but gaps remained in clinical depth and consensus, supporting the feasibility of LLM based evaluation for large scale benchmarking and the need for hybrid automated and clinician review frameworks to guide safe clinical deployment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.