모델 역전 및 선택적 소거를 이용한 LLM의 데이터 불용 개인 정보 보호
Data-Free Privacy-Preserving for LLMs via Model Inversion and Selective Unlearning
대규모 언어 모델(LLM)은 강력한 기능을 제공하지만, 학습 데이터에서 민감한 개인 식별 정보(PII)를 기억할 위험이 있어 심각한 개인 정보 보호 문제를 야기할 수 있습니다. 기존의 머신 러닝 소거 기술은 이러한 데이터를 제거하려고 하지만, 주로 학습 데이터에 대한 접근이 필요합니다. 이러한 요구 사항은 실제 환경에서 종종 비현실적입니다. 왜냐하면 학습 데이터는 일반적으로 독점적이거나 접근할 수 없기 때문입니다. 이러한 제한 사항을 해결하기 위해, 우리는 학습 데이터를 필요로 하지 않고 LLM에서 민감한 PII를 제거하는 새로운 개인 정보 보호 프레임워크인 데이터 불용 선택적 소거(DFSU)를 제안합니다. 우리의 접근 방식은 먼저 언어 모델 역전을 통해 가짜 PII를 생성하고, 이러한 합성 샘플에 대한 토큰 수준의 개인 정보 보호 마스크를 구성한 다음, 저랭크 적응(LoRA) 서브스페이스 내에서 대조 마스크 손실을 사용하여 토큰 수준의 선택적 소거를 수행합니다. Pythia 모델을 사용하여 AI4Privacy PII-Masking 데이터 세트에 대한 광범위한 실험 결과, 우리의 방법이 대상 PII를 효과적으로 제거하면서 모델의 유용성을 유지하는 것으로 나타났습니다.
Large language models (LLMs) exhibit powerful capabilities but risk memorizing sensitive personally identifiable information (PII) from their training data, posing significant privacy concerns. While machine unlearning techniques aim to remove such data, they predominantly depend on access to the training data. This requirement is often impractical, as training data in real-world deployments is commonly proprietary or inaccessible. To address this limitation, we propose Data-Free Selective Unlearning (DFSU), a novel privacy-preserving framework that removes sensitive PII from an LLM without requiring its training data. Our approach first synthesizes pseudo-PII through language model inversion, then constructs token-level privacy masks for these synthetic samples, and finally performs token-level selective unlearning via a contrastive mask loss within a low-rank adaptation (LoRA) subspace. Extensive experiments on the AI4Privacy PII-Masking dataset using Pythia models demonstrate that our method effectively removes target PII while maintaining model utility.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.