현실적인 임상 상호작용을 위한 다단계 환자 역할극 프레임워크
Multi-Stage Patient Role-Playing Framework for Realistic Clinical Interactions
현실적인 임상 상호작용 시뮬레이션은 임상 대규모 언어 모델(LLM)의 발전을 촉진하고 의료 진단 교육을 지원하는 데 중요한 역할을 합니다. 기존의 접근 방식 및 벤치마크는 일반적으로 생성적인 대화 데이터 또는 LLM이 생성한 데이터를 사용하는데, 이는 의사와 환자의 상호작용의 진정성과 다양성을 제한합니다. 본 연구에서는 현실적인 임상 상호작용 시나리오에서 구축된 최초의 중국어 환자 시뮬레이션 데이터셋(Ch-PatientSim)을 제안하여, 모델이 환자 행동을 모방하는 성능을 종합적으로 평가합니다. 환자는 5차원 페르소나 구조를 기반으로 시뮬레이션됩니다. 페르소나 클래스의 불균형 문제를 해결하기 위해, 데이터셋의 일부를 소량 데이터 생성을 통해 증강한 후, 수동 검증을 거칩니다. 다양한 최첨단 LLM을 평가한 결과, 대부분의 모델이 지나치게 격식 있는 답변을 제공하며 개별적인 개성을 부족한 것으로 나타났습니다. 이러한 제한 사항을 해결하기 위해, 모델 응답의 개인화 및 현실성을 모두 보장하기 위해 상호작용을 세 단계로 분해하는 훈련이 필요 없는 다단계 환자 역할극(MSPRP) 프레임워크를 제안합니다. 실험 결과는 제안하는 방식이 환자 시뮬레이션의 여러 측면에서 모델 성능을 크게 향상시킨다는 것을 보여줍니다.
The simulation of realistic clinical interactions plays a pivotal role in advancing clinical Large Language Models (LLMs) and supporting medical diagnostic education. Existing approaches and benchmarks rely on generic or LLM-generated dialogue data, which limits the authenticity and diversity of doctor-patient interactions. In this work, we propose the first Chinese patient simulation dataset (Ch-PatientSim), constructed from realistic clinical interaction scenarios to comprehensively evaluate the performance of models in emulating patient behavior. Patients are simulated based on a five-dimensional persona structure. To address issues of the persona class imbalance, a portion of the dataset is augmented using few-shot generation, followed by manual verification. We evaluate various state-of-the-art LLMs and find that most produce overly formal responses that lack individual personality. To address this limitation, we propose a training-free Multi-Stage Patient Role-Playing (MSPRP) framework, which decomposes interactions into three stages to ensure both personalization and realism in model responses. Experimental results demonstrate that our approach significantly improves model performance across multiple dimensions of patient simulation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.