2601.06193v1 Jan 08, 2026 cs.LG

MLB: 임상 응용 분야에서 대규모 언어 모델을 평가하기 위한 시나리오 기반 벤치마크

MLB: A Scenario-Driven Benchmark for Evaluating Large Language Models in Clinical Applications

Qing He
Qing He
Citations: 13,196
h-index: 5
Jian Wang
Jian Wang
Citations: 48
h-index: 3
Jinjie Gu
Jinjie Gu
Citations: 359
h-index: 10
Jing Peng
Jing Peng
Citations: 47
h-index: 4
Yi Hu
Yi Hu
Citations: 5
h-index: 1
Dongsheng Bi
Dongsheng Bi
Citations: 10
h-index: 1
Jianrong Lu
Jianrong Lu
Citations: 253
h-index: 7
Minghui Yang
Minghui Yang
Citations: 6
h-index: 1
Zixiao Chen
Zixiao Chen
Citations: 1
h-index: 1
Jiacheng Lu
Jiacheng Lu
Citations: 3
h-index: 1
Jing Chen
Jing Chen
Citations: 74
h-index: 3
Nannan Du
Nannan Du
Citations: 14
h-index: 2
Xiao Cu
Xiao Cu
Citations: 0
h-index: 0
Sijing Wu
Sijing Wu
Citations: 2
h-index: 1
Peng Xiang
Peng Xiang
Citations: 0
h-index: 0
Yiqiu Guo
Yiqiu Guo
Citations: 29
h-index: 3
Chunpu Li
Chunpu Li
Citations: 11
h-index: 1
Shao-Meng Li
Shao-Meng Li
Citations: 4
h-index: 1
Z. Dong
Z. Dong
Citations: 117
h-index: 5
Mingyi Jiang
Mingyi Jiang
Citations: 10
h-index: 1
Shuai Guo
Shuai Guo
Citations: 3
h-index: 1
Liyun Feng
Liyun Feng
Citations: 8
h-index: 1
Junwei Liu
Junwei Liu
Citations: 22
h-index: 2

대규모 언어 모델(LLM)의 확산은 의료 분야에 혁신적인 잠재력을 제공하지만, 실제 임상 환경에서의 활용은 이를 평가할 수 있는 체계의 부재로 인해 제한적입니다. 기존 벤치마크는 정적인 지식을 평가하는 데 초점을 맞추고 있어, 임상 현장에서 요구되는 동적이고 응용 지향적인 능력을 제대로 반영하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 의료 LLM 벤치마크인 MLB를 소개합니다. MLB는 기본적인 지식과 시나리오 기반 추론 능력을 모두 평가하는 포괄적인 벤치마크입니다. MLB는 의료 지식(MedKQA), 안전 및 윤리(MedSE), 의료 기록 이해(MedRU), 스마트 서비스(SmartServ), 스마트 헬스케어(SmartCare)의 다섯 가지 핵심 영역으로 구성됩니다. 이 벤치마크는 다양한 중국 임상 출처에서 수집된 22개의 데이터 세트(17개는 새로 큐레이션)를 통합하며, 64개의 임상 전문 분야를 다룹니다. 300명의 면허 의사가 참여하는 엄격한 큐레이션 파이프라인을 통해 설계되었습니다. 또한, 우리는 전문가의 주석을 기반으로 지도 미세 조정(SFT)을 통해 학습된 특수 평가 모델을 중심으로 확장 가능한 평가 방법론을 제공합니다. 10개의 선도 모델에 대한 종합적인 평가 결과, 중요한 실용성 격차가 있음을 확인했습니다. 최고 순위 모델인 Kimi-K2-Instruct는 전반적으로 77.3%의 정확도를 보였지만, 정보 추출과 같은 구조화된 작업(MedRU에서 87.8% 정확도)에서는 우수한 성능을 보였지만, 환자와 직접 관련된 시나리오(SmartServ에서 61.3%)에서는 성능이 크게 저하되었습니다. 또한, 훨씬 작은 규모의 Baichuan-M2-32B 모델이 뛰어난 안전 점수(MedSE에서 90.6%)를 기록한 것은, 특정 목적에 맞춘 학습이 얼마나 중요한지를 보여줍니다. 19,000개의 전문가 주석이 포함된 의료 데이터 세트에 대해 SFT로 학습된 당사의 특수 평가 모델은 92.1%의 정확도, 94.37%의 F1 점수, 81.3%의 Cohen's Kappa 값을 달성하여 인간-AI 일관성을 검증하고, 재현 가능하고 전문가 수준의 평가 프로토콜을 입증했습니다. MLB는 임상적으로 활용 가능한 LLM 개발을 위한 엄격한 프레임워크를 제공합니다.

Original Abstract

The proliferation of Large Language Models (LLMs) presents transformative potential for healthcare, yet practical deployment is hindered by the absence of frameworks that assess real-world clinical utility. Existing benchmarks test static knowledge, failing to capture the dynamic, application-oriented capabilities required in clinical practice. To bridge this gap, we introduce a Medical LLM Benchmark MLB, a comprehensive benchmark evaluating LLMs on both foundational knowledge and scenario-based reasoning. MLB is structured around five core dimensions: Medical Knowledge (MedKQA), Safety and Ethics (MedSE), Medical Record Understanding (MedRU), Smart Services (SmartServ), and Smart Healthcare (SmartCare). The benchmark integrates 22 datasets (17 newly curated) from diverse Chinese clinical sources, covering 64 clinical specialties. Its design features a rigorous curation pipeline involving 300 licensed physicians. Besides, we provide a scalable evaluation methodology, centered on a specialized judge model trained via Supervised Fine-Tuning (SFT) on expert annotations. Our comprehensive evaluation of 10 leading models reveals a critical translational gap: while the top-ranked model, Kimi-K2-Instruct (77.3% accuracy overall), excels in structured tasks like information extraction (87.8% accuracy in MedRU), performance plummets in patient-facing scenarios (61.3% in SmartServ). Moreover, the exceptional safety score (90.6% in MedSE) of the much smaller Baichuan-M2-32B highlights that targeted training is equally critical. Our specialized judge model, trained via SFT on a 19k expert-annotated medical dataset, achieves 92.1% accuracy, an F1-score of 94.37%, and a Cohen's Kappa of 81.3% for human-AI consistency, validating a reproducible and expert-aligned evaluation protocol. MLB thus provides a rigorous framework to guide the development of clinically viable LLMs.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!