MAMA-MIA 챌린지: 유방 MRI 종양 분할 및 치료 반응 예측에서 일반화 성능 및 공정성 향상
The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction
유방암은 전 세계 여성에게 가장 흔하게 진단되는 악성 질환이며, 암 관련 사망의 주요 원인입니다. 동적 조영 증강 자기 공명 영상은 특히 사전 화학 요법을 받는 환자의 경우, 종양의 특성 파악 및 치료 모니터링에 중요한 역할을 합니다. 그러나 유방 자기 공명 영상에 사용되는 기존 인공지능 모델은 종종 단일 기관의 데이터로 개발되고 집계 성능 지표를 사용하여 평가되므로, 일반화 성능이 제한되고 인구 통계 하위 그룹 간의 잠재적인 성능 차이가 가려질 수 있습니다. MAMA-MIA 챌린지는 이러한 제한 사항을 해결하기 위해, 치료 전 자기 공명 영상만을 사용하여 1차 종양 분할 및 병리학적 완전 반응 예측을 동시에 평가하는 대규모 벤치마크를 도입했습니다. 학습 데이터는 미국 내 여러 기관의 1,506명의 환자를 포함했으며, 평가 데이터는 세 개의 독립적인 유럽 센터의 574명의 환자를 포함한 외부 테스트 세트를 사용하여 대륙 간 및 기관 간의 일반화 성능을 평가했습니다. 통일된 평가 프레임워크는 예측 성능과 연령, 폐경 여부 및 유방 밀도에 따른 하위 그룹 간의 일관성을 결합했습니다. 최종 평가 단계에는 26개의 국제 팀이 참여했습니다. 결과는 외부 테스트 환경에서 상당한 성능 변동성을 보여주며, 전체 정확도와 하위 그룹 공정성 간의 상충 관계를 드러냅니다. 이 챌린지는 표준화된 데이터 세트, 평가 프로토콜 및 공개 리소스를 제공하여 유방암 영상에 사용되는 강력하고 공정한 인공지능 시스템 개발을 촉진합니다.
Breast cancer is the most frequently diagnosed malignancy among women worldwide and a leading cause of cancer-related mortality. Dynamic contrast-enhanced magnetic resonance imaging plays a central role in tumor characterization and treatment monitoring, particularly in patients receiving neoadjuvant chemotherapy. However, existing artificial intelligence models for breast magnetic resonance imaging are often developed using single-center data and evaluated using aggregate performance metrics, limiting their generalizability and obscuring potential performance disparities across demographic subgroups. The MAMA-MIA Challenge was designed to address these limitations by introducing a large-scale benchmark that jointly evaluates primary tumor segmentation and prediction of pathologic complete response using pre-treatment magnetic resonance imaging only. The training cohort comprised 1,506 patients from multiple institutions in the United States, while evaluation was conducted on an external test set of 574 patients from three independent European centers to assess cross-continental and cross-institutional generalization. A unified scoring framework combined predictive performance with subgroup consistency across age, menopausal status, and breast density. Twenty-six international teams participated in the final evaluation phase. Results demonstrate substantial performance variability under external testing and reveal trade-offs between overall accuracy and subgroup fairness. The challenge provides standardized datasets, evaluation protocols, and public resources to promote the development of robust and equitable artificial intelligence systems for breast cancer imaging.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.