PVminerLLM: 대규모 언어 모델을 활용한 환자 생성 텍스트로부터의 구조화된 환자 의견 추출
PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models
배경: 환자가 생성한 텍스트는 환자의 경험, 사회적 상황, 의료 서비스 참여 등 중요한 정보를 담고 있으며, 이는 치료 준수, 의료 협력, 건강 형평성과 같은 요인에 큰 영향을 미칩니다. 그러나 이러한 환자 의견 정보는 거의 구조화된 형태로 제공되지 않아, 환자 중심의 결과 연구 및 임상 품질 개선에 활용하기 어렵습니다. 따라서 이러한 정보를 신뢰성 있게 추출하는 것은 건강 결과에 영향을 미치는 비임상적 요인을 이해하고 해결하는 데 필수적입니다. 결과: 본 연구에서는 구조화된 환자 의견 추출을 위한 벤치마크인 PVminer를 소개하고, 이 작업에 특화된 지도 학습 기반의 대규모 언어 모델인 PVminerLLM을 제안합니다. 다양한 데이터셋과 모델 크기를 사용하여 PVminerLLM은 프롬프트 기반의 기존 모델보다 훨씬 뛰어난 성능을 보였습니다. 특히, 코드 예측에서 최대 83.82%의 F1 점수, 하위 코드 예측에서 80.74%의 F1 점수, 증거 구간 추출에서 87.03%의 F1 점수를 달성했습니다. 주목할 만한 점은 더 작은 모델에서도 우수한 성능을 보였다는 것입니다. 이는 매우 큰 모델을 사용하지 않고도 신뢰성 있는 환자 의견 추출이 가능하다는 것을 보여줍니다. 이러한 결과는 환자가 생성한 텍스트에 내재된 사회적 및 경험적 신호에 대한 확장 가능한 분석을 가능하게 합니다. 가용성 및 구현: 코드, 평가 스크립트 및 학습된 대규모 언어 모델은 공개적으로 제공될 예정입니다. 주석이 달린 데이터셋은 연구 목적으로 요청 시 제공됩니다. 키워드: 대규모 언어 모델, 지도 학습, 의료 주석, 환자 생성 텍스트, 임상 자연어 처리
Motivation: Patient-generated text contains critical information about patients' lived experiences, social circumstances, and engagement in care, including factors that strongly influence adherence, care coordination, and health equity. However, these patient voice signals are rarely available in structured form, limiting their use in patient-centered outcomes research and clinical quality improvement. Reliable extraction of such information is therefore essential for understanding and addressing non-clinical drivers of health outcomes at scale. Results: We introduce PVminer, a benchmark for structured extraction of patient voice, and propose PVminerLLM, a supervised fine-tuned large language model tailored to this task. Across multiple datasets and model sizes, PVminerLLM substantially outperforms prompt-based baselines, achieving up to 83.82% F1 for Code prediction, 80.74% F1 for Sub-code prediction, and 87.03% F1 for evidence Span extraction. Notably, strong performance is achieved even with smaller models, demonstrating that reliable patient voice extraction is feasible without extreme model scale. These results enable scalable analysis of social and experiential signals embedded in patient-generated text. Availability and Implementation: Code, evaluation scripts, and trained LLMs will be released publicly. Annotated datasets will be made available upon request for research use. Keywords: Large Language Models, Supervised Fine-Tuning, Medical Annotation, Patient-Generated Text, Clinical NLP
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.