MedExAgent: LLM 에이전트를 훈련하여 노이즈가 많은 임상 환경에서 질문하고, 검사하고, 진단하도록 하는 방법
MedExAgent: Training LLM Agents to Ask, Examine, and Diagnose in Noisy Clinical Environments
실제 임상 진단은 의사가 환자와의 상호 작용과 의료 검사를 통해 정보를 얻어야 하는 복잡한 과정입니다. 또한, 의사는 다양한 환자 특성에 적응해야 하며, 과정 중 언제든지 발생할 수 있는 노이즈와 불완전한 정보에 대처해야 합니다. 그러나, 기존의 의료 LLM 벤치마크와 자동 진단 방법은 이 과정을 종종 단순화하여 단일 턴 질의 응답, 노이즈 없는 대화, 또는 순차적인 검사 수행 등으로 줄이는 경향이 있으며, 이는 임상 진단의 상호 작용적이고 불확실한 특성을 간과합니다. 본 논문에서는 이러한 격차를 해소하기 위해, 임상 진단을 부분 관측 마르코프 의사 결정 프로세스(POMDP)로 공식화하고, 환자에게 질문하기, 의료 검사를 수행하기, 진단을 내리기라는 세 가지 행동 유형을 정의합니다. 또한, 환자 노이즈 7가지 유형과 검사 노이즈 3가지 유형으로 구성된 체계적인 노이즈 모델을 소개합니다. 제안하는 환경을 사용하여, 효과적인 진단 에이전트인 MedExAgent를 훈련합니다. 이 훈련은 두 단계로 진행됩니다. 먼저, 캘거리-캠브리지 모델을 기반으로 구조화된 합성 대화 데이터셋을 사용하여 지도 학습 방식으로 미세 조정을 수행하고, 그 다음에는 진단 정확도, 도구 사용 품질, 검사 비용(재정적 비용 및 환자의 불편함 포함)을 포괄하는 복합 보상을 최적화하기 위해 DAPO 알고리즘을 적용합니다. 광범위한 실험과 분석을 통해, MedExAgent는 더 큰 모델과 비교할 만한 진단 성능을 달성하면서도 비용 효율적인 검사 전략을 유지하는 것을 입증했습니다.
Real-world clinical diagnosis is a complex process in which the doctor is required to obtain information from both interaction with the patient and conducting medical exams. Additionally, the doctor needs to adapt to different patient personas, as well as noisy and incomplete information that can happen at any time during the process. However, existing benchmarks for medical LLMs and methods for automatic diagnosis largely simplify this process by reducing it to single-turn question answering, noise-free conversations, or sequential exam making, etc., ignoring the interactive and uncertain nature of clinical diagnosis. In this paper, we aim to address this gap by formalizing clinical diagnosis as a Partially Observable Markov Decision Process (POMDP) with three action types: questioning the patient, ordering medical exams as tool calls, and issuing a diagnosis. We also introduce a systematic noise model comprising seven patient noise types and three exam noise types. Using our proposed environment, we train an effective diagnosis agent, \textbf{MedExAgent}, through a two-stage pipeline that first performs supervised finetuning on synthetic conversations structured after the Calgary-Cambridge model for clinical interviews, and then applies DAPO to optimize a composite reward capturing diagnostic accuracy, tool call quality, and exam cost including financial cost and patient discomfort. Through extensive experiments and ablation studies, we demonstrate that MedExAgent achieves diagnostic performance comparable to larger models while maintaining cost-efficient examination strategies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.