LiveMedBench: 자동화된 평가 기준을 갖춘, 오염 없는 의료 분야 LLM 벤치마크
LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation
대규모 언어 모델(LLM)을 임상 환경과 같이 중요한 분야에 적용하기 위해서는 엄격하고 신뢰할 수 있는 평가가 필수적입니다. 그러나 기존의 의료 분야 벤치마크는 다음과 같은 두 가지 중요한 한계점을 가지고 있습니다. (1) 데이터 오염: 테스트 데이터가 실수로 학습 데이터에 유출되어 성능 추정치가 과장되는 현상입니다. (2) 시간적 불일치: 빠르게 변화하는 의학 지식을 제대로 반영하지 못하는 현상입니다. 또한, 개방형 임상 추론에 대한 현재의 평가 지표는 종종 피상적인 어휘 중복(예: ROUGE)이나 주관적인 LLM-as-a-Judge 방식에 의존하는데, 이는 임상적 정확성을 검증하기에는 부적절합니다. 이러한 문제점을 해결하기 위해, 우리는 실시간으로 업데이트되며, 데이터 오염이 없고, 평가 기준이 명확한 벤치마크인 LiveMedBench를 소개합니다. LiveMedBench는 매주 온라인 의료 커뮤니티에서 실제 임상 사례를 수집하며, 모델 학습 데이터와의 엄격한 시간적 분리를 보장합니다. 우리는 원시 데이터의 노이즈를 제거하고, 증거 기반 의학 원칙에 따라 임상적 정확성을 검증하는 다중 에이전트 임상 큐레이션 프레임워크를 제안합니다. 평가를 위해, 의사의 답변을 세분화된, 사례별 기준으로 분해하여 전문가 의사와의 일관성을 크게 향상시키는 자동화된 평가 기준 프레임워크를 개발했습니다. 현재 LiveMedBench는 38개의 의학 분야 및 여러 언어에 걸쳐 2,756개의 실제 임상 사례와 16,702개의 고유한 평가 기준으로 구성되어 있습니다. 38개의 LLM에 대한 광범위한 평가는, 가장 성능이 좋은 모델조차 39.2%의 정확도를 보이며, 84%의 모델이 최신 데이터에 대해 성능 저하를 보이는 것을 보여주었습니다. 이는 데이터 오염의 위험성이 만연함을 확인시켜줍니다. 추가적인 오류 분석 결과, 사실적 지식보다는 맥락에 맞는 적용이 주요한 문제점으로 드러났으며, 35~48%의 오류는 환자별 제약 조건을 고려한 의학 지식의 적용 능력 부족에서 비롯된 것으로 나타났습니다.
The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.