소규모 저자원 언어 검증 데이터셋을 활용한 의료 기록 자동화 LLM 모델의 성능 평가
Evaluating Fine-Tuned LLM Model For Medical Transcription With Small Low-Resource Languages Validated Dataset
임상 기록은 환자 안전, 진단 및 지속적인 치료에 중요한 역할을 합니다. 전자 건강 기록(EHR)의 관리 부담은 의료 전문가의 소진을 유발하는 주요 요인입니다. 특히, 핀란드어를 포함한 저자원 언어 환경에서 이러한 문제는 더욱 심각합니다. 본 연구는 메트로폴리아 응용과학대학교 학생들이 시뮬레이션한 임상 대화 데이터로 구성된 소규모 검증 데이터셋을 사용하여, LLaMA 3.1-8B 모델을 의료 기록 자동화에 적합하도록 미세 조정(fine-tuning)하여 핀란드어 환경에서의 효과성을 조사합니다. 의료 기록 자동화를 위한 미세 조정 과정에서는 엄격한 전처리 및 최적화 방법을 사용했습니다. 미세 조정의 효과는 7배 교차 검증을 통해 평가되었으며, BLEU 점수는 0.1214, ROUGE-L 점수는 0.4982, BERTScore F1 점수는 0.8230으로 나타났습니다. 결과는 낮은 n-gram 중복률을 보였지만, 참조 기록과 높은 의미적 유사성을 나타냈습니다. 본 연구는 미세 조정이 구어 핀란드어로 된 의료 담론 번역에 효과적인 방법이 될 수 있으며, 핀란드어 임상 기록을 위한 개인 정보 보호 중심의 전문 분야 대규모 언어 모델 미세 조정의 타당성을 뒷받침한다는 것을 시사합니다. 또한, 향후 연구를 위한 방향을 제시합니다.
Clinical documentation is a critical factor for patient safety, diagnosis, and continuity of care. The administrative burden of EHRs is a significant factor in physician burnout. This is a critical issue for low-resource languages, including Finnish. This study aims to investigate the effectiveness of a domain-aligned natural language processing (NLP); large language model for medical transcription in Finnish by fine-tuning LLaMA 3.1-8B on a small validated corpus of simulated clinical conversations by students at Metropolia University of Applied Sciences. The fine-tuning process for medical transcription used a controlled preprocessing and optimization approach. The fine-tuning effectiveness was evaluated by sevenfold cross-validation. The evaluation metrics for fine-tuned LLaMA 3.1-8B were BLEU = 0.1214, ROUGE-L = 0.4982, and BERTScore F1 = 0.8230. The results showed a low n-gram overlap but a strong semantic similarity with reference transcripts. This study indicate that fine-tuning can be an effective approach for translation of medical discourse in spoken Finnish and support the feasibility of fine-tuning a privacy-oriented domain-specific large language model for clinical documentation in Finnish. Beside that provide directions for future work.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.