AI 생성 데이터 오염이 병리학적 다양성과 진단 신뢰성을 저해한다
AI-generated data contamination erodes pathological variability and diagnostic reliability
생성형 인공지능(AI)은 의료 기록에 합성 콘텐츠를 빠르게 추가하고 있으며, 이는 향후 모델이 정제되지 않은 AI 생성 데이터로 훈련될 위험이 높아지는 피드백 루프를 형성합니다. 그러나 이러한 AI 생성 데이터 오염의 임상적 결과는 아직 탐구되지 않았습니다. 본 연구에서는 의무적인 인간 검증이 없는 경우, 이러한 자기 참조적 순환이 병리학적 다양성과 진단 신뢰성을 급격하게 저해한다는 것을 보여줍니다. 임상 텍스트 생성, 시각-언어 보고, 의료 이미지 합성 등 80만 개 이상의 합성 데이터 포인트를 분석한 결과, 모델 아키텍처에 관계없이 모델이 점진적으로 일반적인 표현형으로 수렴하는 경향을 발견했습니다. 특히 흉기종창 및 흉수와 같은 드물지만 중요한 소견은 AI 모델이 생성하는 합성 콘텐츠에서 사라지는 반면, 인구 통계적 표현은 중년 남성 표현형으로 크게 치우쳐 있습니다. 더욱 중요한 점은 이러한 저하가 허위 진단 신뢰도로 가려진다는 것입니다. 모델은 여전히 안심시키는 보고서를 발행하는 동시에 생명을 위협하는 병리를 감지하지 못하며, 이러한 허위 안심 비율은 40%로 세 배 증가합니다. 익명 의료 전문가의 평가 결과, 신뢰도와 정확도의 이러한 불일치는 AI 생성 문서가 단 두 세대 만에 임상적으로 무용해지게 만듭니다. 우리는 세 가지 완화 전략을 체계적으로 평가한 결과, 합성 데이터 양을 늘리는 방법은 붕괴를 막지 못하는 반면, 실제 데이터를 품질 인지 필터와 함께 혼합하는 방법은 다양성을 효과적으로 유지할 수 있다는 것을 확인했습니다. 궁극적으로, 우리의 결과는 정책에 의해 의무화된 인간 감독이 없다면, 생성형 AI의 활용이 의료 데이터 생태계를 위협하여 오히려 그것이 의존하는 데이터를 저하시킬 수 있음을 시사합니다.
Generative artificial intelligence (AI) is rapidly populating medical records with synthetic content, creating a feedback loop where future models are increasingly at risk of training on uncurated AI-generated data. However, the clinical consequences of this AI-generated data contamination remain unexplored. Here, we show that in the absence of mandatory human verification, this self-referential cycle drives a rapid erosion of pathological variability and diagnostic reliability. By analysing more than 800,000 synthetic data points across clinical text generation, vision-language reporting, and medical image synthesis, we find that models progressively converge toward generic phenotypes regardless of the model architecture. Specifically, rare but critical findings, including pneumothorax and effusions, vanish from the synthetic content generated by AI models, while demographic representations skew heavily toward middle-aged male phenotypes. Crucially, this degradation is masked by false diagnostic confidence; models continue to issue reassuring reports while failing to detect life-threatening pathology, with false reassurance rates tripling to 40%. Blinded physician evaluation confirms that this decoupling of confidence and accuracy renders AI-generated documentation clinically useless after just two generations. We systematically evaluate three mitigation strategies, finding that while synthetic volume scaling fails to prevent collapse, mixing real data with quality-aware filtering effectively preserves diversity. Ultimately, our results suggest that without policy-mandated human oversight, the deployment of generative AI threatens to degrade the very healthcare data ecosystems it relies upon.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.