PhysicianBench: 실제 의료 기록 환경에서 LLM 에이전트 평가
PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments
본 논문에서는 PhysicianBench를 소개합니다. PhysicianBench는 실제 임상 환경 내의 전자 건강 기록(EHR) 시스템에서 의사 업무를 수행하는 LLM 에이전트를 평가하기 위한 벤치마크입니다. 기존의 의료 에이전트 벤치마크는 주로 정적인 지식 검색, 단일 단계의 간단한 작업, 또는 검증 가능한 실행 없이 작업 의도에 초점을 맞추고 있습니다. 그 결과, 실제 임상 시스템의 복잡하고 장기적인 워크플로우를 제대로 반영하지 못합니다. PhysicianBench는 일반의학과 의사와 전문의 간의 실제 상담 사례에서 파생된 100개의 장기적인 작업으로 구성되어 있으며, 각 작업은 별도의 의사 패널에 의해 독립적으로 검토되었습니다. 작업은 실제 환자 기록이 포함된 EHR 환경에서 수행되며, 상용 EHR 공급업체에서 사용하는 표준 API를 통해 접근할 수 있습니다. 작업은 21개의 다양한 전문 분야(예: 심장학, 내분비학, 종양학, 정신과)와 다양한 워크플로우 유형(예: 진단 해석, 약물 처방, 치료 계획)을 포함하며, 작업당 평균 27번의 도구 호출이 필요합니다. 각 작업은 여러 방문에서 데이터를 검색하고, 이질적인 임상 정보를 추론하고, 중요한 임상적 조치를 실행하고, 임상 문서를 생성해야 합니다. 각 작업은 벤치마크 전체에서 총 670개의 구조화된 체크포인트로 분해되어 있으며, 각 체크포인트는 작업별 스크립트를 사용하여 평가되며, 실행 기반의 검증을 포함합니다. 13개의 독점 및 오픈 소스 LLM 에이전트를 평가한 결과, 가장 성능이 좋은 모델의 성공률(pass@1)은 46%에 불과했으며, 오픈 소스 모델은 최대 19%에 그쳐, 현재 에이전트의 기능과 실제 임상 워크플로우의 요구 사항 간에 상당한 격차가 있음을 보여줍니다. PhysicianBench는 자율적인 임상 에이전트 개발의 진전을 측정하기 위한 현실적이고 실행 기반의 벤치마크를 제공합니다.
We introduce PhysicianBench, a benchmark for evaluating LLM agents on physician tasks grounded in real clinical setting within electronic health record (EHR) environments. Existing medical agent benchmarks primarily focus on static knowledge recall, single-step atomic actions, or action intent without verifiable execution against the environment. As a result, they fail to capture the long-horizon, composite workflows that characterize real clinical systems. PhysicianBench comprises 100 long-horizon tasks adapted from real consultation cases between primary care and subspecialty physicians, with each task independently reviewed by a separate panel of physicians. Tasks are instantiated in an EHR environment with real patient records and accessed through the same standard APIs used by commercial EHR vendors. Tasks span 21 specialties (e.g., cardiology, endocrinology, oncology, psychiatry) and diverse workflow types (e.g., diagnosis interpretation, medication prescribing, treatment planning), requiring an average of 27 tool calls per task. Solving each task requires retrieving data across encounters, reasoning over heterogeneous clinical information, executing consequential clinical actions, and producing clinical documentation. Each task is decomposed into structured checkpoints (670 in total across the benchmark) capturing distinct stages of completion graded by task-specific scripts with execution-grounded verification. Across 13 proprietary and open-source LLM agents, the best-performing model achieves only 46% success rate (pass@1), while open-source models reach at most 19%, revealing a substantial gap between current agent capabilities and the demands of real-world clinical workflows. PhysicianBench provides a realistic and execution-grounded benchmark for measuring progress toward autonomous clinical agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.