ECG-Reasoning-Benchmark: 심전도 판독 시 임상적 추론 능력을 평가하기 위한 벤치마크
ECG-Reasoning-Benchmark: A Benchmark for Evaluating Clinical Reasoning Capabilities in ECG Interpretation
다중 모드 대규모 언어 모델(MLLM)은 자동 심전도 해석에서 유망한 성능을 보이지만, 실제로 단계별 추론을 수행하는지 아니면 표면적인 시각적 단서에만 의존하는지는 불분명합니다. 이를 조사하기 위해, 저희는 6,400개 이상의 샘플로 구성된 새로운 다단계 평가 프레임워크인 **ECG-Reasoning-Benchmark**를 소개하여, 17가지 주요 심전도 진단에 대한 단계별 추론 능력을 체계적으로 평가합니다. 최첨단 모델에 대한 종합적인 평가는 다단계 논리적 추론을 수행하는 데 있어 중요한 결함을 드러냅니다. 모델들은 진단을 위한 임상 기준을 검색할 수 있는 의료 지식을 가지고 있지만, 전체적인 추론 과정을 유지하는 데 있어 거의 0%의 성공률(6% 완료율)을 보이며, 주로 심전도 신호의 실제 시각적 증거에 해당하는 심전도 소견을 연결하는 데 실패합니다. 이러한 결과는 현재의 MLLM이 실제 시각적 해석을 생략한다는 것을 보여주며, 기존의 학습 패러다임에 심각한 결함이 있음을 드러냅니다. 또한, 견고하고 추론 중심적인 의료 AI의 필요성을 강조합니다. 코드 및 데이터는 https://github.com/Jwoo5/ecg-reasoning-benchmark 에서 확인할 수 있습니다.
While Multimodal Large Language Models (MLLMs) show promising performance in automated electrocardiogram interpretation, it remains unclear whether they genuinely perform actual step-by-step reasoning or just rely on superficial visual cues. To investigate this, we introduce \textbf{ECG-Reasoning-Benchmark}, a novel multi-turn evaluation framework comprising over 6,400 samples to systematically assess step-by-step reasoning across 17 core ECG diagnoses. Our comprehensive evaluation of state-of-the-art models reveals a critical failure in executing multi-step logical deduction. Although models possess the medical knowledge to retrieve clinical criteria for a diagnosis, they exhibit near-zero success rates (6% Completion) in maintaining a complete reasoning chain, primarily failing to ground the corresponding ECG findings to the actual visual evidence in the ECG signal. These results demonstrate that current MLLMs bypass actual visual interpretation, exposing a critical flaw in existing training paradigms and underscoring the necessity for robust, reasoning-centric medical AI. The code and data are available at https://github.com/Jwoo5/ecg-reasoning-benchmark.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.