2601.08183v2 Jan 13, 2026 cs.CV

GI-Bench: 위장내시경 분야의 다중 모드 대규모 언어 모델의 지식-경험 불일치 현상을 보여주는 포괄적인 벤치마크

GI-Bench: A Panoramic Benchmark Revealing the Knowledge-Experience Dissociation of Multimodal Large Language Models in Gastrointestinal Endoscopy Against Clinical Standards

Yan Zhu
Yan Zhu
Citations: 22
h-index: 3
Tengfei Luo
Tengfei Luo
Citations: 23
h-index: 4
Pei-yao Fu
Pei-yao Fu
Citations: 101
h-index: 4
Zhen Zhang
Zhen Zhang
Citations: 426
h-index: 5
Yi-Fan Qu
Yi-Fan Qu
Citations: 24
h-index: 3
Zifan Geng
Zifan Geng
Citations: 237
h-index: 6
Jia-qi Xu
Jia-qi Xu
Citations: 87
h-index: 6
L. Yao
L. Yao
Citations: 318
h-index: 7
Li-yun Ma
Li-yun Ma
Citations: 131
h-index: 6
Wei Su
Wei Su
Citations: 13
h-index: 2
Wei-Feng Chen
Wei-Feng Chen
Citations: 4,504
h-index: 35
Quan-Lin Li
Quan-Lin Li
Citations: 3,929
h-index: 34
Shuo Wang
Shuo Wang
Citations: 3
h-index: 1
P. Zhou
P. Zhou
Citations: 0
h-index: 0
Zilong Wang
Zilong Wang
Citations: 825
h-index: 13

다중 모드 대규모 언어 모델(MLLM)은 위장병학 분야에서 유망한 가능성을 보이지만, 포괄적인 임상 워크플로우 및 인간 전문가와의 성능 비교는 아직 검증되지 않았습니다. 본 연구는 최첨단 MLLM을 광범위한 위장내시경 워크플로우 전반에 걸쳐 체계적으로 평가하고, 인간 내시경 전문의와 비교하여 임상적 유용성을 판단하고자 합니다. 이를 위해 20가지 세분화된 병변 범주를 포함하는 벤치마크인 GI-Bench를 구축했습니다. 12개의 MLLM을 해부학적 위치 파악, 병변 식별, 진단, 소견 설명, 치료 관리의 5단계 임상 워크플로우에서 평가했습니다. 모델 성능은 Macro-F1, 평균 IoU(Intersection-over-Union), 다차원 리커트 척도를 사용하여 3명의 주니어 내시경 전문의 및 3명의 레지던트 수련생과 비교했습니다. Gemini-3-Pro 모델이 최상위 성능을 달성했습니다. 진단 추론 측면에서 최상위 모델(Macro-F1 0.641)은 수련생(0.492)보다 우수한 성능을 보였으며, 주니어 내시경 전문의(0.727; p>0.05)와 유사한 수준을 나타냈습니다. 그러나 중요한 '공간적 정합성 문제'가 여전히 존재했습니다. 인간의 병변 위치 파악(mIoU >0.506)은 최상의 모델(0.345; p<0.05)보다 훨씬 우수했습니다. 또한, 질적 분석 결과 '유창성-정확성 역설'이 나타났습니다. 모델은 인간(p<0.05)보다 뛰어난 언어적 가독성을 가진 보고서를 생성했지만, '과도한 해석' 및 시각적 특징의 '환각'으로 인해 사실적 정확성은 훨씬 낮았습니다(p<0.05). GI-Bench는 임상 내시경 분야에서 MLLM의 성능 변화를 추적하는 동적 순위표를 유지합니다. 현재 순위 및 벤치마크 결과는 https://roterdl.github.io/GIBench/ 에서 확인할 수 있습니다.

Original Abstract

Multimodal Large Language Models (MLLMs) show promise in gastroenterology, yet their performance against comprehensive clinical workflows and human benchmarks remains unverified. To systematically evaluate state-of-the-art MLLMs across a panoramic gastrointestinal endoscopy workflow and determine their clinical utility compared with human endoscopists. We constructed GI-Bench, a benchmark encompassing 20 fine-grained lesion categories. Twelve MLLMs were evaluated across a five-stage clinical workflow: anatomical localization, lesion identification, diagnosis, findings description, and management. Model performance was benchmarked against three junior endoscopists and three residency trainees using Macro-F1, mean Intersection-over-Union (mIoU), and multi-dimensional Likert scale. Gemini-3-Pro achieved state-of-the-art performance. In diagnostic reasoning, top-tier models (Macro-F1 0.641) outperformed trainees (0.492) and rivaled junior endoscopists (0.727; p>0.05). However, a critical "spatial grounding bottleneck" persisted; human lesion localization (mIoU >0.506) significantly outperformed the best model (0.345; p<0.05). Furthermore, qualitative analysis revealed a "fluency-accuracy paradox": models generated reports with superior linguistic readability compared with humans (p<0.05) but exhibited significantly lower factual correctness (p<0.05) due to "over-interpretation" and hallucination of visual features. GI-Bench maintains a dynamic leaderboard that tracks the evolving performance of MLLMs in clinical endoscopy. The current rankings and benchmark results are available at https://roterdl.github.io/GIBench/.

0 Citations
0 Influential
17.5 Altmetric
87.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!