대규모 언어 모델을 활용한 임상 기록 분석을 통한 HIV 관련 낙인 식별
Detecting HIV-Related Stigma in Clinical Narratives Using Large Language Models
인간 면역 결핍 바이러스(HIV) 관련 낙인은 HIV 감염자와의 건강에 중요한 심리사회적 요인이며, 정신 건강, 의료 서비스 참여, 치료 결과에 영향을 미칩니다. 낙인과 관련된 경험은 임상 기록에 기록되지만, 이러한 내용을 추출하고 분류할 수 있는 즉시 사용 가능한 도구가 부족합니다. 본 연구는 임상 기록에서 HIV 낙인을 식별하기 위한 대규모 언어 모델(LLM) 기반 도구를 개발하는 것을 목표로 합니다. 2012년부터 2022년까지 플로리다 대학교(UF) 헬스에서 의료 서비스를 받는 HIV 감염자들의 임상 기록을 분석했습니다. 전문가가 선별한 낙인 관련 키워드를 사용하여 후보 문장을 식별하고, 임상 단어 임베딩을 통해 반복적으로 확장했습니다. 총 1,332개의 문장이 수동으로 주석 처리되었으며, 주석은 '대중의 태도에 대한 우려', '정보 공개에 대한 우려', '부정적인 자기 이미지', '개인화된 낙인'의 네 가지 하위 범주로 분류되었습니다. GatorTron-large와 BERT를 인코더 기반 기준으로 사용하고, GPT-OSS-20B, LLaMA-8B, MedGemma-27B를 생성형 LLM으로 사용하여 제로샷 및 퓨샷 프롬프팅 환경에서 성능을 비교했습니다. GatorTron-large가 가장 우수한 전반적인 성능(Micro F1 = 0.62)을 보였습니다. 퓨샷 프롬프팅은 생성 모델의 성능을 크게 향상시켰으며, 5-shot GPT-OSS-20B와 LLaMA-8B는 각각 Micro-F1 점수가 0.57과 0.59를 기록했습니다. 낙인 하위 범주에 따라 성능이 달랐으며, '부정적인 자기 이미지'가 가장 높은 예측 가능성을 보였고, '개인화된 낙인'이 가장 어려운 것으로 나타났습니다. 제로샷 생성 추론은 상당한 실패율(최대 32%)을 보였습니다. 본 연구는 임상 기록에서 HIV 낙인을 식별하기 위한 첫 번째 실용적인 자연어 처리 도구를 개발했습니다.
Human immunodeficiency virus (HIV)-related stigma is a critical psychosocial determinant of health for people living with HIV (PLWH), influencing mental health, engagement in care, and treatment outcomes. Although stigma-related experiences are documented in clinical narratives, there is a lack of off-the-shelf tools to extract and categorize them. This study aims to develop a large language model (LLM)-based tool for identifying HIV stigma from clinical notes. We identified clinical notes from PLWH receiving care at the University of Florida (UF) Health between 2012 and 2022. Candidate sentences were identified using expert-curated stigma-related keywords and iteratively expanded via clinical word embeddings. A total of 1,332 sentences were manually annotated across four stigma subscales: Concern with Public Attitudes, Disclosure Concerns, Negative Self-Image, and Personalized Stigma. We compared GatorTron-large and BERT as encoder-based baselines, and GPT-OSS-20B, LLaMA-8B, and MedGemma-27B as generative LLMs, under zero-shot and few-shot prompting. GatorTron-large achieved the best overall performance (Micro F1 = 0.62). Few-shot prompting substantially improved generative model performance, with 5-shot GPT-OSS-20B and LLaMA-8B achieving Micro-F1 scores of 0.57 and 0.59, respectively. Performance varied by stigma subscale, with Negative Self-Image showing the highest predictability and Personalized Stigma remaining the most challenging. Zero-shot generative inference exhibited non-trivial failure rates (up to 32%). This study develops the first practical NLP tool for identifying HIV stigma in clinical notes.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.