데이터셋 응축을 통한 기존 임상 모델의 활용성을 높여 임상 인공지능의 민주화를 실현
Democratising Clinical AI through Dataset Condensation for Classical Clinical Models
데이터셋 응축(DC)은 모델이 전체 데이터셋으로 훈련했을 때와 유사한 성능을 보이도록 하는 동시에, 데이터의 분포적 정확성보다 유용성을 우선시하는 소규모의 합성 데이터셋을 학습하는 기술입니다. 일반적으로 DC는 계산 효율성을 높이기 위해 활용되지만, 특히 차등 프라이버시와 결합될 경우, 의료 데이터 민주화에 기여할 수 있는 잠재력을 가지고 있으며, 합성 데이터를 실제 데이터의 안전한 대체 수단으로 활용할 수 있습니다. 그러나 기존의 DC 방법은 미분 가능한 신경망에 의존하기 때문에, 의사 결정 트리 및 콕스 회귀와 같이 널리 사용되는 임상 모델과의 호환성이 제한됩니다. 본 연구에서는 차등 프라이버시를 적용한 제로 오더 최적화 프레임워크를 사용하여 DC를 미분 불가능한 모델에도 적용할 수 있도록 개선했습니다. 6개의 데이터셋에 대한 실험 결과에서, 제안하는 방법은 모델의 유용성을 유지하면서 효과적인 차등 프라이버시를 제공하는 응축된 데이터셋을 생성하여, 민감한 환자 정보를 노출시키지 않고 임상 예측 작업을 위한 모델에 국한되지 않은 데이터 공유를 가능하게 합니다.
Dataset condensation (DC) learns a compact synthetic dataset that enables models to match the performance of full-data training, prioritising utility over distributional fidelity. While typically explored for computational efficiency, DC also holds promise for healthcare data democratisation, especially when paired with differential privacy, allowing synthetic data to serve as a safe alternative to real records. However, existing DC methods rely on differentiable neural networks, limiting their compatibility with widely used clinical models such as decision trees and Cox regression. We address this gap using a differentially private, zero-order optimisation framework that extends DC to non-differentiable models using only function evaluations. Empirical results across six datasets, including both classification and survival tasks, show that the proposed method produces condensed datasets that preserve model utility while providing effective differential privacy guarantees - enabling model-agnostic data sharing for clinical prediction tasks without exposing sensitive patient information.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.