QuarkMedBench: 실제 시나리오 기반의 대규모 언어 모델 평가를 위한 벤치마크
QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models
대규모 언어 모델(LLM)은 표준화된 의학 시험에서 뛰어난 성과를 보이지만, 높은 점수가 실제 의료 관련 질문에 대한 고품질 답변으로 이어지지 않는 경우가 많습니다. 현재의 평가는 객관식 질문에 크게 의존하며, 이는 실제 사용자의 문의에 내재된 비정형적이고, 모호하며, 희소한 복잡성을 제대로 반영하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 실제 의료 LLM 평가를 위한 생태학적으로 타당한 벤치마크인 QuarkMedBench를 소개합니다. 우리는 임상 치료, 건강 증진 및 전문가 문의를 포괄하는 20,821개의 단일 턴 쿼리와 3,853개의 다중 턴 세션으로 구성된 방대한 데이터 세트를 구축했습니다. 개방형 답변을 객관적으로 평가하기 위해, 우리는 다중 모델 합의와 증거 기반 검색을 통합하여 220,617개의 세분화된 평가 기준(~9.8개/쿼리)을 동적으로 생성하는 자동화된 평가 프레임워크를 제안합니다. 평가 과정에서, 계층적 가중치 및 안전 제약을 통해 의료 정확성, 핵심 내용 포함 여부 및 위험 방지를 구조적으로 정량화하여, 인간 평가의 높은 비용과 주관성을 효과적으로 완화합니다. 실험 결과는 생성된 평가 기준이 임상 전문가의 익명 검토와 91.8%의 일치율을 달성하여 높은 신뢰성을 갖는 의료적 정확성을 확보함을 보여줍니다. 더욱 중요한 점은, 이 벤치마크에 대한 초기 평가 결과는 최첨단 모델 간에 실제 임상적인 미묘한 측면을 처리하는 능력에서 상당한 성능 차이가 있음을 보여주며, 이는 기존 시험 기반 지표의 한계를 강조합니다. 궁극적으로, QuarkMedBench는 복잡한 건강 문제에 대한 LLM 성능을 측정하기 위한 엄격하고 재현 가능한 기준을 제시하며, 또한 프레임워크는 벤치마크의 노후화를 방지하기 위해 동적인 지식 업데이트를 지원합니다.
While Large Language Models (LLMs) excel on standardized medical exams, high scores often fail to translate to high-quality responses for real-world medical queries. Current evaluations rely heavily on multiple-choice questions, failing to capture the unstructured, ambiguous, and long-tail complexities inherent in genuine user inquiries. To bridge this gap, we introduce QuarkMedBench, an ecologically valid benchmark tailored for real-world medical LLM assessment. We compiled a massive dataset spanning Clinical Care, Wellness Health, and Professional Inquiry, comprising 20,821 single-turn queries and 3,853 multi-turn sessions. To objectively evaluate open-ended answers, we propose an automated scoring framework that integrates multi-model consensus with evidence-based retrieval to dynamically generate 220,617 fine-grained scoring rubrics (~9.8 per query). During evaluation, hierarchical weighting and safety constraints structurally quantify medical accuracy, key-point coverage, and risk interception, effectively mitigating the high costs and subjectivity of human grading. Experimental results demonstrate that the generated rubrics achieve a 91.8% concordance rate with clinical expert blind audits, establishing highly dependable medical reliability. Crucially, baseline evaluations on this benchmark reveal significant performance disparities among state-of-the-art models when navigating real-world clinical nuances, highlighting the limitations of conventional exam-based metrics. Ultimately, QuarkMedBench establishes a rigorous, reproducible yardstick for measuring LLM performance on complex health issues, while its framework inherently supports dynamic knowledge updates to prevent benchmark obsolescence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.