GI-Bench: 위장내시경 분야의 다중 모드 대규모 언어 모델의 지식-경험 불일치 현상을 보여주는 포괄적인 벤치마크
GI-Bench: A Panoramic Benchmark Revealing the Knowledge-Experience Dissociation of Multimodal Large Language Models in Gastrointestinal Endoscopy Against Clinical Standards
다중 모드 대규모 언어 모델(MLLM)은 위장병학 분야에서 유망한 가능성을 보이지만, 포괄적인 임상 워크플로우 및 인간 전문가와의 성능 비교는 아직 검증되지 않았습니다. 본 연구는 최첨단 MLLM을 광범위한 위장내시경 워크플로우 전반에 걸쳐 체계적으로 평가하고, 인간 내시경 전문의와 비교하여 임상적 유용성을 판단하고자 합니다. 이를 위해 20가지 세분화된 병변 범주를 포함하는 벤치마크인 GI-Bench를 구축했습니다. 12개의 MLLM을 해부학적 위치 파악, 병변 식별, 진단, 소견 설명, 치료 관리의 5단계 임상 워크플로우에서 평가했습니다. 모델 성능은 Macro-F1, 평균 IoU(Intersection-over-Union), 다차원 리커트 척도를 사용하여 3명의 주니어 내시경 전문의 및 3명의 레지던트 수련생과 비교했습니다. Gemini-3-Pro 모델이 최상위 성능을 달성했습니다. 진단 추론 측면에서 최상위 모델(Macro-F1 0.641)은 수련생(0.492)보다 우수한 성능을 보였으며, 주니어 내시경 전문의(0.727; p>0.05)와 유사한 수준을 나타냈습니다. 그러나 중요한 '공간적 정합성 문제'가 여전히 존재했습니다. 인간의 병변 위치 파악(mIoU >0.506)은 최상의 모델(0.345; p<0.05)보다 훨씬 우수했습니다. 또한, 질적 분석 결과 '유창성-정확성 역설'이 나타났습니다. 모델은 인간(p<0.05)보다 뛰어난 언어적 가독성을 가진 보고서를 생성했지만, '과도한 해석' 및 시각적 특징의 '환각'으로 인해 사실적 정확성은 훨씬 낮았습니다(p<0.05). GI-Bench는 임상 내시경 분야에서 MLLM의 성능 변화를 추적하는 동적 순위표를 유지합니다. 현재 순위 및 벤치마크 결과는 https://roterdl.github.io/GIBench/ 에서 확인할 수 있습니다.
Multimodal Large Language Models (MLLMs) show promise in gastroenterology, yet their performance against comprehensive clinical workflows and human benchmarks remains unverified. To systematically evaluate state-of-the-art MLLMs across a panoramic gastrointestinal endoscopy workflow and determine their clinical utility compared with human endoscopists. We constructed GI-Bench, a benchmark encompassing 20 fine-grained lesion categories. Twelve MLLMs were evaluated across a five-stage clinical workflow: anatomical localization, lesion identification, diagnosis, findings description, and management. Model performance was benchmarked against three junior endoscopists and three residency trainees using Macro-F1, mean Intersection-over-Union (mIoU), and multi-dimensional Likert scale. Gemini-3-Pro achieved state-of-the-art performance. In diagnostic reasoning, top-tier models (Macro-F1 0.641) outperformed trainees (0.492) and rivaled junior endoscopists (0.727; p>0.05). However, a critical "spatial grounding bottleneck" persisted; human lesion localization (mIoU >0.506) significantly outperformed the best model (0.345; p<0.05). Furthermore, qualitative analysis revealed a "fluency-accuracy paradox": models generated reports with superior linguistic readability compared with humans (p<0.05) but exhibited significantly lower factual correctness (p<0.05) due to "over-interpretation" and hallucination of visual features. GI-Bench maintains a dynamic leaderboard that tracks the evolving performance of MLLMs in clinical endoscopy. The current rankings and benchmark results are available at https://roterdl.github.io/GIBench/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.