차등 프라이버시 합성 증류를 이용한 프라이버시 보호 모델 변환
Privacy-Preserving Model Transcription with Differentially Private Synthetic Distillation
개인 정보가 포함된 데이터셋으로 학습된 많은 딥러닝 모델들이 다양한 실용적인 작업에 적용되고 있지만, 공격자가 모델로부터 유용한 데이터 또는 레이블 정보를 복구하여 프라이버시 침해 위험을 초래할 수 있습니다. 본 연구에서는 모델 배포 시 프라이버시를 보장하는 데이터 없이 모델을 변환하는 방법인 "프라이버시 보호 모델 변환"을 제시합니다. 이를 위해, 개인 정보에 접근하지 않고도 사전 학습된 모델(선생 모델)을 프라이버시 보호된 모델(학생 모델)로 변환하는 훈련 가능한 생성기를 사용하는 "차등 프라이버시 합성 증류"라는 협력-경쟁 학습 접근 방식을 제안합니다. 이 학습은 세 가지 요소가 통합된 프레임워크 내에서 이루어지며, 교대로 최적화됩니다. (i) 생성기는 합성 데이터를 생성하도록 학습되고, (ii) 선생 모델과 학생 모델은 합성 데이터를 받아들이고, 유연한 데이터 또는 레이블 노이즈 추가를 통해 차등 프라이버시 레이블을 계산하며, (iii) 학생 모델은 노이즈가 추가된 레이블로 업데이트되고, 생성기는 학생 모델을 적대적 훈련을 위한 판별기로 사용하여 업데이트됩니다. 저희는 제안하는 방법이 차등 프라이버시를 보장하고 수렴한다는 것을 이론적으로 증명했습니다. 변환된 학생 모델은 우수한 성능과 프라이버시 보호 기능을 제공하며, 생성된 생성기는 후속 작업에 사용될 수 있는 프라이버시 보호 합성 데이터를 생성할 수 있습니다. 광범위한 실험 결과, 저희 방법이 26개의 최첨단 기술보다 우수하다는 것을 명확하게 보여줍니다.
While many deep learning models trained on private datasets have been deployed in various practical tasks, they may pose a privacy leakage risk as attackers could recover informative data or label knowledge from models. In this work, we present \emph{privacy-preserving model transcription}, a data-free model-to-model conversion solution to facilitate model deployment with a privacy guarantee. To this end, we propose a cooperative-competitive learning approach termed \emph{differentially private synthetic distillation} that learns to convert a pretrained model (teacher) into its privacy-preserving counterpart (student) via a trainable generator without access to private data. The learning collaborates with three players in a unified framework and performs alternate optimization: i)~the generator is learned to generate synthetic data, ii)~the teacher and student accept the synthetic data and compute differential private labels by flexible data or label noisy perturbation, and iii)~the student is updated with noisy labels and the generator is updated by taking the student as a discriminator for adversarial training. We theoretically prove that our approach can guarantee differential privacy and convergence. The transcribed student has good performance and privacy protection, while the resulting generator can generate private synthetic data for downstream tasks. Extensive experiments clearly demonstrate that our approach outperforms 26 state-of-the-arts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.