2604.10904v1 Apr 13, 2026 cs.CV

의료 영상 재구성 기술이 후속 AI의 공정성과 성능에 미치는 영향 평가

Evaluating the Impact of Medical Image Reconstruction on Downstream AI Fairness and Performance

Daniel Rueckert
Daniel Rueckert
Citations: 610
h-index: 13
Niklas Bubeck
Niklas Bubeck
Citations: 14
h-index: 2
Matteo Wohlrapp
Matteo Wohlrapp
Citations: 2
h-index: 1
William Lotter
William Lotter
Citations: 245
h-index: 5

AI 기반 영상 재구성 모델은 낮은 선량 X선 또는 가속 MRI 스캔과 같은 노이즈가 많은 데이터로부터 영상 품질을 향상시키기 위해 임상 워크플로우에 점점 더 많이 사용되고 있습니다. 그러나 이러한 모델은 일반적으로 PSNR과 같은 픽셀 수준 지표를 사용하여 평가되므로, 후속 진단 성능 및 공정성에 미치는 영향은 불분명합니다. 본 연구에서는 재구성 및 진단 AI 모델을 함께 적용하는 확장 가능한 평가 프레임워크를 소개하고, 이 프레임워크를 두 가지 작업(분류, 분할), 세 가지 재구성 방법(U-Net, GAN, 확산 모델), 그리고 두 가지 데이터 유형(X선, MRI)에 적용하여 재구성이 잠재적으로 미칠 수 있는 후속 영향에 대해 평가합니다. 분석 결과, 기존 재구성 지표는 작업 성능을 제대로 반영하지 못하며, 영상 노이즈가 증가하더라도 진단 정확도는 대체로 안정적인 경향을 보이는 것으로 나타났습니다. 공정성 지표는 더 큰 변동성을 보이며, 재구성이 때로는 인구 통계학적 편향을 증폭시키는 것을 확인했습니다. 특히 환자의 성별에 대한 편향이 두드러졌습니다. 그러나 이러한 추가적인 편향의 전체적인 크기는 진단 모델에 이미 존재하는 고유한 편향에 비해 미미한 수준입니다. 잠재적인 편향 완화를 위해 분류 분야의 두 가지 전략을 재구성 환경에 적용했지만, 효과는 제한적이었습니다. 전반적으로, 본 연구 결과는 의료 영상 워크플로우 전체에 걸쳐 포괄적인 성능 및 공정성 평가의 중요성을 강조하며, 특히 생성형 재구성 모델이 점점 더 많이 사용됨에 따라 이러한 평가가 더욱 중요합니다.

Original Abstract

AI-based image reconstruction models are increasingly deployed in clinical workflows to improve image quality from noisy data, such as low-dose X-rays or accelerated MRI scans. However, these models are typically evaluated using pixel-level metrics like PSNR, leaving their impact on downstream diagnostic performance and fairness unclear. We introduce a scalable evaluation framework that applies reconstruction and diagnostic AI models in tandem, which we apply to two tasks (classification, segmentation), three reconstruction approaches (U-Net, GAN, diffusion), and two data types (X-ray, MRI) to assess the potential downstream implications of reconstruction. We find that conventional reconstruction metrics poorly track task performance, where diagnostic accuracy remains largely stable even as reconstruction PSNR declines with increasing image noise. Fairness metrics exhibit greater variability, with reconstruction sometimes amplifying demographic biases, particularly regarding patient sex. However, the overall magnitude of this additional bias is modest compared to the inherent biases already present in diagnostic models. To explore potential bias mitigation, we adapt two strategies from classification literature to the reconstruction setting, but observe limited efficacy. Overall, our findings emphasize the importance of holistic performance and fairness assessments throughout the entire medical imaging workflow, especially as generative reconstruction models are increasingly deployed.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!