차등 프라이버시를 적용한 의료 영상 분석에서 자기 지도 학습 사전 훈련의 역할
The role of self-supervised pretraining in differentially private medical image analysis
차등 프라이버시(DP)는 민감한 데이터에 대한 공식적인 보호를 제공하지만, 일반적으로 진단 성능 저하를 초래합니다. 모델 초기화는 이러한 성능 저하를 완화하는 데 중요한 요소로 부상했지만, 전체 모델 차등 프라이버시 환경에서의 최신 자기 지도 학습의 역할은 아직 명확히 밝혀지지 않았습니다. 본 연구에서는 800만 장 이상의 흉부 X선 영상 데이터를 활용한 대표적인 벤치마크인 흉부 X선 영상 분류를 통해 차등 프라이버시 의료 영상 분석을 위한 다양한 초기화 전략에 대한 대규모 평가를 수행했습니다. 최첨단 ConvNeXt 모델을 DP-SGD를 사용하여 현실적인 개인정보 보호 수준에서 훈련하고, 도메인 특이성이 없는 지도 학습 기반 ImageNet 초기화, 도메인 특이성이 없는 자기 지도 학습 기반 DINOv3 초기화, 그리고 가장 큰 공개 흉부 X선 영상 데이터셋인 MIMIC-CXR를 사용한 도메인 특이적인 지도 학습 사전 훈련을 비교했습니다. 평가 결과는 다양한 기관 및 촬영 환경을 포함하는 다섯 개의 외부 데이터셋을 사용하여 분석되었습니다. DINOv3 초기화는 DP 환경에서 ImageNet 초기화보다 진단 유용성을 꾸준히 향상시키는 것으로 나타났지만, 도메인 특이적인 지도 학습 사전 훈련만큼의 성능을 보여주지 못했습니다. 도메인 특이적인 지도 학습 사전 훈련은 개인정보 보호가 적용되지 않은 기준 모델과 가장 유사한 성능을 달성했습니다. 또한, 초기화 방법 선택이 개인정보 보호 제약 조건 하에서 인구 통계적 공정성, 데이터셋 간 일반화 능력, 데이터 규모 및 모델 용량에 대한 강건성에 큰 영향을 미치는 것으로 나타났습니다. 이러한 결과는 초기화 전략이 차등 프라이버시 의료 영상에서 유용성, 공정성 및 일반화 능력을 결정하는 핵심 요소임을 보여줍니다.
Differential privacy (DP) provides formal protection for sensitive data but typically incurs substantial losses in diagnostic performance. Model initialization has emerged as a critical factor in mitigating this degradation, yet the role of modern self-supervised learning under full-model DP remains poorly understood. Here, we present a large-scale evaluation of initialization strategies for differentially private medical image analysis, using chest radiograph classification as a representative benchmark with more than 800,000 images. Using state-of-the-art ConvNeXt models trained with DP-SGD across realistic privacy regimes, we compare non-domain-specific supervised ImageNet initialization, non-domain-specific self-supervised DINOv3 initialization, and domain-specific supervised pretraining on MIMIC-CXR, the largest publicly available chest radiograph dataset. Evaluations are conducted across five external datasets spanning diverse institutions and acquisition settings. We show that DINOv3 initialization consistently improves diagnostic utility relative to ImageNet initialization under DP, but remains inferior to domain-specific supervised pretraining, which achieves performance closest to non-private baselines. We further demonstrate that initialization choice strongly influences demographic fairness, cross-dataset generalization, and robustness to data scale and model capacity under privacy constraints. The results establish initialization strategy as a central determinant of utility, fairness, and generalization in differentially private medical imaging.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.