대학 의료 센터에서의 LLM(대규모 언어 모델) 도입 및 활용
Adoption and Use of LLMs at an Academic Medical Center
대규모 언어 모델(LLM)은 임상 문서 작성에 도움이 될 수 있지만, 독립적인 도구는 수동 데이터 입력으로 인한 '업무 효율성 저하'라는 문제점을 가지고 있습니다. 본 연구에서는 ChatEHR이라는 시스템을 개발하여 LLM을 활용하면서도, 수년간의 환자 기록 전체를 포괄할 수 있도록 했습니다. ChatEHR은 정해진 작업 수행을 위한 조합된 프롬프트와 데이터를 활용하는 자동화 기능과, 사용자 인터페이스(UI)를 통해 전자 건강 기록(EHR) 시스템 내에서 상호 작용적인 사용 기능을 제공합니다. 이러한 기능은 환자 의료 기록을 다양한 용도로 활용할 수 있도록 하며, 예를 들어, 진료 전 차트 검토, 환자 이송 가능성 평가, 수술 부위 감염 모니터링, 차트 요약 등 LLM 활용을 기관 전체의 역량으로 재정의합니다. 사용자 교육 후 접근 가능한 이 시스템은 LLM 사용에 대한 지속적인 모니터링 및 평가를 가능하게 합니다. 1.5년 동안 7개의 자동화 기능을 구축했으며, 1075명의 사용자가 UI를 활용하는 방법을 교육받아, 출시 후 처음 3개월 동안 23,000회 이상의 세션을 진행했습니다. 자동화 기능의 경우, 특정 임상 또는 관리 업무에 가장 적합한 LLM을 선택하기 위해 모델에 구애받지 않고 다양한 유형의 데이터에 접근하는 것이 중요했습니다. UI의 성능 모니터링 및 평가를 위한 표준 벤치마크는 충분하지 않았으며, 새로운 방법론이 필요했습니다. UI를 통한 가장 흔한 작업은 요약 생성이었으며, 생성된 요약당 평균 0.73회의 환각(hallucination) 및 1.60회의 부정확성이 발생했습니다. 비용 절감, 시간 절약, 수익 증대 효과를 종합적으로 평가하기 위해, 작업 우선순위 결정 및 LLM 사용의 영향력을 정량화하는 가치 평가 프레임워크가 필요했습니다. 초기 추정 결과에 따르면, LLM 사용 1년 차에 약 6백만 달러의 비용 절감 효과가 있으며, 이는 더 나은 의료 서비스 제공으로 인한 이점은 포함하지 않은 금액입니다. 이러한 '내부 구축' 전략은 의료 시스템이 벤더에 의존하지 않고 자체적으로 관리하는 LLM 플랫폼을 통해 자율성을 유지할 수 있는 기회를 제공합니다.
While large language models (LLMs) can support clinical documentation needs, standalone tools struggle with "workflow friction" from manual data entry. We developed ChatEHR, a system that enables the use of LLMs with the entire patient timeline spanning several years. ChatEHR enables automations - which are static combinations of prompts and data that perform a fixed task - and interactive use in the electronic health record (EHR) via a user interface (UI). The resulting ability to sift through patient medical records for diverse use-cases such as pre-visit chart review, screening for transfer eligibility, monitoring for surgical site infections, and chart abstraction, redefines LLM use as an institutional capability. This system, accessible after user-training, enables continuous monitoring and evaluation of LLM use. In 1.5 years, we built 7 automations and 1075 users have trained to become routine users of the UI, engaging in 23,000 sessions in the first 3 months of launch. For automations, being model-agnostic and accessing multiple types of data was essential for matching specific clinical or administrative tasks with the most appropriate LLM. Benchmark-based evaluations proved insufficient for monitoring and evaluation of the UI, requiring new methods to monitor performance. Generation of summaries was the most frequent task in the UI, with an estimated 0.73 hallucinations and 1.60 inaccuracies per generation. The resulting mix of cost savings, time savings, and revenue growth required a value assessment framework to prioritize work as well as quantify the impact of using LLMs. Initial estimates are $6M savings in the first year of use, without quantifying the benefit of the better care offered. Such a "build-from-within" strategy provides an opportunity for health systems to maintain agency via a vendor-agnostic, internally governed LLM platform.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.