네덜란드 임상 기록의 차등 프라이버시 기반 익명화: 비교 평가
Differentially Private De-identification of Dutch Clinical Notes: A Comparative Evaluation
임상 기록에서 환자 프라이버시 보호는 GDPR 및 HIPAA와 같은 규정에 따라 의료 데이터를 2차적으로 활용하는 데 필수적입니다. 수동 익명화는 여전히 가장 좋은 방법이지만 비용이 많이 들고 시간이 오래 걸리므로, 프라이버시 보장과 높은 유용성을 결합한 자동화된 방법의 필요성이 대두되고 있습니다. 대부분의 자동화된 텍스트 익명화 시스템은 보호된 개체를 식별하여 삭제하기 위해 개체명 인식(NER) 기술을 사용합니다. 차등 프라이버시(DP) 기반 방법은 형식적인 프라이버시 보장을 제공하지만, 최근에는 대규모 언어 모델(LLM)이 임상 분야의 텍스트 익명화에도 점점 더 많이 사용되고 있습니다. 본 연구에서는 네덜란드 임상 텍스트 익명화를 위한 DP, NER, LLM에 대한 최초의 비교 연구를 제시합니다. 우리는 이러한 방법을 개별적으로 평가하고, DP를 적용하기 전에 NER 또는 LLM을 사용하여 전처리하는 하이브리드 전략을 조사하며, 프라이버시 누수 및 외부 평가(개체 및 관계 분류) 측면에서 성능을 평가합니다. 연구 결과, DP 메커니즘만으로는 유용성이 크게 저하되지만, 언어적 전처리, 특히 LLM 기반의 삭제와 결합하면 프라이버시-유용성 균형이 크게 향상됩니다.
Protecting patient privacy in clinical narratives is essential for enabling secondary use of healthcare data under regulations such as GDPR and HIPAA. While manual de-identification remains the gold standard, it is costly and slow, motivating the need for automated methods that combine privacy guarantees with high utility. Most automated text de-identification pipelines employed named entity recognition (NER) to identify protected entities for redaction. Although methods based on differential privacy (DP) provide formal privacy guarantees, more recently also large language models (LLMs) are increasingly used for text de-identification in the clinical domain. In this work, we present the first comparative study of DP, NER, and LLMs for Dutch clinical text de-identification. We investigate these methods separately as well as hybrid strategies that apply NER or LLM preprocessing prior to DP, and assess performance in terms of privacy leakage and extrinsic evaluation (entity and relation classification). We show that DP mechanisms alone degrade utility substantially, but combining them with linguistic preprocessing, especially LLM-based redaction, significantly improves the privacy-utility trade-off.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.