CT-Bench: 컴퓨터 단층 촬영 영상에서 다중 모드 병변 이해를 위한 벤치마크
CT-Bench: A Benchmark for Multimodal Lesion Understanding in Computed Tomography
인공지능(AI)은 컴퓨터 단층 촬영(CT) 영상에서 병변을 자동으로 식별하고 방사선 보고서 내용을 생성할 수 있지만, 병변 수준의 주석이 포함된 공개 CT 데이터셋의 부족으로 인해 발전이 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 CT-Bench를 소개합니다. CT-Bench는 독창적인 벤치마크 데이터셋으로, 두 가지 구성 요소로 이루어져 있습니다. 첫 번째는 경계 상자, 설명, 크기 정보를 포함하는 20,335개의 병변 이미지를 담은 데이터셋이며, 이는 7,795개의 CT 검사에서 추출되었습니다. 두 번째는 병변 위치 파악, 설명, 크기 추정, 속성 분류를 다루는 2,850개의 질의응답(QA) 쌍으로 구성된 다중 작업 시각적 질의응답 벤치마크입니다. 실제 진단 과제를 반영하기 위해 어려운 부정 예시가 포함되어 있습니다. 우리는 비전-언어 모델 및 의료 CLIP 변형을 포함한 여러 최첨단 다중 모드 모델을 평가하고, 그 성능을 방사선 전문의의 평가와 비교하여 CT-Bench가 병변 분석을 위한 포괄적인 벤치마크로서의 가치를 입증했습니다. 또한, 병변 이미지 및 메타데이터 세트에서 모델을 미세 조정하면 두 구성 요소 모두에서 상당한 성능 향상을 가져왔으며, 이는 CT-Bench의 임상적 유용성을 강조합니다.
Artificial intelligence (AI) can automatically delineate lesions on computed tomography (CT) and generate radiology report content, yet progress is limited by the scarcity of publicly available CT datasets with lesion-level annotations. To bridge this gap, we introduce CT-Bench, a first-of-its-kind benchmark dataset comprising two components: a Lesion Image and Metadata Set containing 20,335 lesions from 7,795 CT studies with bounding boxes, descriptions, and size information, and a multitask visual question answering benchmark with 2,850 QA pairs covering lesion localization, description, size estimation, and attribute categorization. Hard negative examples are included to reflect real-world diagnostic challenges. We evaluate multiple state-of-the-art multimodal models, including vision-language and medical CLIP variants, by comparing their performance to radiologist assessments, demonstrating the value of CT-Bench as a comprehensive benchmark for lesion analysis. Moreover, fine-tuning models on the Lesion Image and Metadata Set yields significant performance gains across both components, underscoring the clinical utility of CT-Bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.