CT-FineBench: CT 보고서 생성의 정밀 평가를 위한 진단 정확도 벤치마크
CT-FineBench: A Diagnostic Fidelity Benchmark for Fine-Grained Evaluation of CT Report Generation
컴퓨터 단층 촬영(CT) 보고서 생성에서, 방대한 텍스트 양, 다양한 발견 사항의 복잡성, 그리고 질병 관련 세부 속성으로 인해 생성된 보고서의 평가는 여전히 중요한 과제입니다. 기존 평가 지표는 어휘 중복 또는 개체 매칭과 같은 거친 측정만을 제공하며, 임상적 사용에 필요한 세부적인 진단 정확도를 반영하지 못합니다. 이러한 격차를 해결하기 위해, CT-RATE 및 Merlin 데이터 세트를 기반으로 CT 보고서의 세부 사실 일관성을 평가하기 위한 벤치마크인 CT-FineBench를 제안합니다. CT-FineBench는 핵심적인 발견 사항과 관련된 임상 속성(예: 위치, 크기, 경계)을 식별하고 구조화하는 정교한 질의응답(QA) 기반 프로세스를 통해 구축되었습니다. 두 번째 단계로, 이러한 속성을 QA 데이터 세트로 체계적으로 변환하여, 표준 보고서에 기반한 특정 임상 세부 사항에 대한 질문을 포함합니다. CT-FineBench의 평가 프로토콜은 이 QA 데이터 세트를 사용하여 기계 생성 보고서를 쿼리하고 답변의 정확성을 평가하는 방식으로 진행됩니다. 이를 통해 표면적인 어휘 중복을 넘어 특정 임상 오류를 지적할 수 있는 포괄적이고 해석 가능하며 임상적으로 관련성이 높은 평가가 가능합니다. 실험 결과, CT-FineBench는 기존 지표보다 전문가의 임상 평가와 더 높은 상관관계를 보이며, 세부 사실 오류에 훨씬 더 민감하다는 것을 보여줍니다.
The evaluation of generated reports remains a critical challenge in Computed Tomography (CT) report generation, due to the large volume of text, the diversity and complexity of findings, and the presence of fine-grained, disease-oriented attributes. Conventional evaluation metrics offer only coarse measures of lexical overlap or entity matching and fail to reflect the granular diagnostic accuracy required for clinical use. To address this gap, we propose CT-FineBench, a benchmark built from CT-RATE and Merlin to evaluate the fine-grained factual consistency of CT reports, constructed from CT-RATE and Merlin. Our benchmark is constructed through a meticulous, Question-Answering (QA) based process: first, we identify and structure key, finding-specific clinical attributes (like location, size, margin). Second, we systematically transform these attributes into a QA dataset, where questions probe for specific clinical details grounded in gold-standard reports. The evaluation protocol for CT-FineBench involves using this QA dataset to query a machine-generated report and scoring the correctness of the answers. This allows for a comprehensive, interpretable, and clinically-relevant assessment, moving beyond superficial lexical overlap to pinpoint specific clinical errors. Experiments show that CT-FineBench correlates better with expert clinical assessment and is substantially more sensitive to fine-grained factual errors than prior metrics.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.