의료 제공 과정에서의 실제 정보 요구 지원을 위한 GPT-3.5와 GPT-4의 평가
Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery
의료 분야에서 대규모 언어 모델(LLM) 활용에 대한 관심이 높아지고 있지만, 현재의 연구들은 임상 환경에서의 LLM의 실제 유용성과 안전성을 제대로 평가하지 못하고 있습니다. 본 연구의 목적은 두 가지 LLM이 정보학 자문 서비스에 의사들이 제출한 질문인 정보 요구를 안전하고 일치하는 방식으로 충족시킬 수 있는지 확인하는 것이었습니다. 정보학 자문 서비스의 질문 66개를 간단한 프롬프트를 통해 GPT-3.5와 GPT-4에 입력했습니다. 12명의 의사가 LLM 답변의 환자 위해(harm) 가능성과 기존 정보학 자문 서비스 보고서와의 일치 여부를 평가했습니다. 의사들의 평가는 다수결 원칙에 따라 요약되었습니다. 어떤 질문에 대해서도 과반수의 의사가 두 LLM의 답변을 유해하다고 판단하지 않았습니다. GPT-3.5의 경우, 8개 질문에 대한 답변은 정보학 자문 보고서와 일치했고, 20개는 불일치했으며, 9개는 평가가 불가능했습니다. '일치', '불일치', '평가 불가' 중 과반수가 나오지 않은 답변은 29개였습니다. GPT-4의 경우, 13개 질문에 대한 답변이 일치했고, 15개는 불일치했으며, 3개는 평가가 불가능했습니다. 과반수 의견이 없는 답변은 35개였습니다. 두 LLM의 답변 모두 명백한 위해성은 거의 없었으나, 정보학 자문 서비스의 답변과 일치한 비율은 20% 미만이었으며, 답변에 환각(hallucinated)된 참고문헌이 포함되어 있었고, 무엇이 위해에 해당하는지에 대해 의사들의 의견이 갈렸습니다. 이러한 결과는 범용 LLM이 안전하고 신뢰할 수 있는 답변을 제공할 수는 있지만, 특정 질문의 구체적인 정보 요구를 충족시키지 못하는 경우가 많음을 시사합니다. 의료 환경에서 LLM의 유용성을 확정적으로 평가하기 위해서는 프롬프트 엔지니어링, 캘리브레이션, 범용 모델의 맞춤화(custom-tailoring)에 대한 추가 연구가 필요할 것입니다.
Despite growing interest in using large language models (LLMs) in healthcare, current explorations do not assess the real-world utility and safety of LLMs in clinical settings. Our objective was to determine whether two LLMs can serve information needs submitted by physicians as questions to an informatics consultation service in a safe and concordant manner. Sixty six questions from an informatics consult service were submitted to GPT-3.5 and GPT-4 via simple prompts. 12 physicians assessed the LLM responses' possibility of patient harm and concordance with existing reports from an informatics consultation service. Physician assessments were summarized based on majority vote. For no questions did a majority of physicians deem either LLM response as harmful. For GPT-3.5, responses to 8 questions were concordant with the informatics consult report, 20 discordant, and 9 were unable to be assessed. There were 29 responses with no majority on "Agree", "Disagree", and "Unable to assess". For GPT-4, responses to 13 questions were concordant, 15 discordant, and 3 were unable to be assessed. There were 35 responses with no majority. Responses from both LLMs were largely devoid of overt harm, but less than 20% of the responses agreed with an answer from an informatics consultation service, responses contained hallucinated references, and physicians were divided on what constitutes harm. These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not meet the specific information need of a given question. A definitive evaluation of the usefulness of LLMs in healthcare settings will likely require additional research on prompt engineering, calibration, and custom-tailoring of general purpose models.
AI Analysis
Korean Summary
Key Innovations
- 표준화된 의사 면허 시험(USMLE 등)이 아닌 실제 임상 현장의 질문(Real-world bedside questions)을 평가 데이터로 활용
- EHR 데이터를 통계적으로 분석한 '정보학 자문 보고서'를 답변의 비교 기준(Ground Truth)으로 설정하는 기능적 평가 프레임워크 도입
- 12명의 의사 평가단을 구성하여 답변의 '위해 가능성'과 '임상적 일치성'을 다수결 방식으로 정량화
Learning & Inference Impact
이 연구는 LLM이 사전 학습된 지식만으로 추론(Inference)할 때 발생할 수 있는 한계를 보여줍니다. 모델은 일반적인 의학 지식은 잘 생성하지만, 특정 의료 기관의 데이터나 통계가 필요한 질문에는 정확한 답을 주지 못하거나 환각(Hallucination)을 일으킬 수 있음을 확인했습니다. 이는 향후 의료 AI 개발에 있어 단순한 모델 성능 향상뿐만 아니라, RAG(검색 증강 생성)나 로컬 EHR 데이터에 기반한 그라운딩(Grounding) 기술이 학습 및 추론 파이프라인에 통합되어야 실질적인 유용성을 확보할 수 있음을 시사합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.