autoPET3 챌린지: 전신 PET/CT 영상에서의 자동 병변 분할 - 다중 추적자, 다중 센터 환경에서의 일반화
The autoPET3 Challenge -- Automated Lesion Segmentation in Whole-Body PET/CT - Multitracer Multicenter Generalization
본 논문에서는 MICCAI 2024에서 개최된 세 번째 autoPET 챌린지의 설계 및 결과를 보고합니다. 이 챌린지는 전신 PET/CT 영상에서 자동 병변 분할 성능을 평가하며, 데이터의 구성적 일반화(compositional generalization) 방식을 사용했습니다. 학습 데이터는 튀빙겐 대학교 병원에서 수집된 1,014건의 [18F]-FDG PET/CT 영상과 뮌헨 LMU 대학교 병원에서 수집된 597건의 [18F]/[68Ga]-PSMA PET/CT 영상으로 구성되었으며, 이는 현재까지 공개된 가장 큰 PSMA PET/CT 데이터셋입니다. 평가 데이터셋은 200건의 영상으로 구성되었으며, 이 중 4가지 추적자-센터 조합으로 구성되었으며, 이 중 2개 조합은 참가자들이 경험하지 못한 조합이었습니다. 데이터 중심의 특별상은 참가자들이 고정된 기본 모델만을 사용하도록 제한하여 데이터 처리 전략의 기여도를 평가했습니다. 17개 팀에서 총 27개의 알고리즘을 제출했으며, 대부분 PET/CT 채널 연결을 사용한 nnU-Net 기반의 3차원 네트워크였습니다. 최고 성능을 보인 알고리즘은 모든 평가 조건에서 평균 Dice 계수가 0.66, FNV (False Negative Volume)가 3.18mL, FPV (False Positive Volume)가 2.78mL를 달성했으며, 제공된 기본 모델보다 Dice 계수가 8% 향상되고, 오탐 부피가 5mL 감소했습니다. 부트스트랩 리샘플링 및 최상위 알고리즘에 대한 대체 랭킹 방식을 사용했을 때에도 랭킹은 안정적이었습니다. 또한, 본 연구에서는 환자 및 병변 수준에서의 분할 성능에 대한 심층적인 분석을 제공합니다. 세 가지 주요 결론을 도출할 수 있습니다. (1) 동일한 데이터셋 내에서의 다중 추적자 PET/CT 분할은 충분히 높은 성능을 보이며, 아마도 전문가 수준의 일치에 가까워지고 있습니다. (2) 경험하지 못한 추적자-센터 조합으로의 구성적 일반화는 여전히 해결해야 할 과제이며, 주로 체계적인 부피 과대 추정으로 인해 발생합니다. (3) 알고리즘 선택보다 데이터의 이질성과 케이스의 난이도가 성능 변동에 더 큰 영향을 미칩니다.
We report the design and results of the third autoPET challenge (MICCAI 2024), which benchmarked automated lesion segmentation in whole-body PET/CT under a compositional generalization setting. Training data comprised 1,014 [18F]-FDG PET/CT studies from the University Hospital Tübingen and 597 [18F]/[68Ga]-PSMA PET/CT studies from the LMU University Hospital Munich, constituting the largest publicly available annotated PSMA PET/CT dataset to date. The held-out test set of 200 studies covered four tracer-center combinations, two of which represented unseen compositional pairings. A complementary data-centric award category isolated the contribution of data handling strategies by restricting participants to a fixed baseline model. Seventeen teams submitted 27 algorithms, predominantly nnU-Net-based 3D networks with PET/CT channel concatenation. The top-ranked algorithm achieved a mean DSC of 0.66, FNV of 3.18 mL, and FPV of 2.78 mL across all four test conditions, improving DSC by 8% and reducing the false-negative volume by 5 mL relative to the provided baseline. Ranking was stable across bootstrap resampling and alternative ranking schemes for the top tier. Beyond the benchmark, we provide an in-depth analysis of segmentation performance at the patient and lesion level. Three main conclusions can be drawn: (1) in-domain multitracer PET/CT segmentation is sufficient and probably approaching reader agreement; (2) compositional generalization to unseen tracer-center combinations remains an open problem mainly driven by systematic volume overestimation; (3) heterogeneity and case difficulty drive performance variation substantially more than the choice of algorithm among top-ranked teams.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.