2601.22359v1 Jan 29, 2026 cs.LG

보이지 않는 위협: 교란된 샘플 환경에서의 기계 학습 모델 삭제 기술에서 남은 지식

The Unseen Threat: Residual Knowledge in Machine Unlearning under Perturbed Samples

Chun-Fu Chen
Chun-Fu Chen
Citations: 118
h-index: 5
Hsiang Hsu
Hsiang Hsu
Citations: 27
h-index: 2
Pradeep Niroula
Pradeep Niroula
Citations: 1,024
h-index: 13
Zichang He
Zichang He
Citations: 8
h-index: 2
Freddy Lécué
Freddy Lécué
Citations: 17
h-index: 2
Ivan Brugere
Ivan Brugere
Citations: 406
h-index: 11

기계 학습 모델 삭제 기술은 특정 사용자 데이터의 영향을 근사적으로 제거하여 전체 모델 재학습을 피하는 실용적인 대안을 제공합니다. 기존 방법들은 통계적 구별 불가능성을 통해 모델 삭제를 보장하지만, 이러한 보장은 입력이 적대적으로 교란된 경우 모델 출력에는 자연스럽게 적용되지 않습니다. 특히, 삭제 대상 샘플의 미세한 교란은 여전히 삭제된 모델에 의해 정확하게 인식될 수 있습니다. 이는 재학습된 모델이 실패하는 경우에도 발생하며, 이는 새로운 개인 정보 보호 위험을 드러냅니다. 즉, 삭제 대상 샘플에 대한 정보가 해당 샘플의 주변 영역에 남아있을 수 있습니다. 본 연구에서는 이러한 취약점을 '남은 지식(residual knowledge)'으로 공식화하고, 고차원 환경에서는 이러한 현상이 불가피함을 보여줍니다. 이러한 위험을 완화하기 위해, 우리는 'RURK'라는 이름의 미세 조정 전략을 제안합니다. 이 전략은 모델이 교란된 삭제 대상 샘플을 재인식하는 능력을 제재합니다. 심층 신경망을 사용한 시각 분야 벤치마크 실험 결과, 남은 지식이 기존의 모델 삭제 기술 전반에 걸쳐 광범위하게 나타나는 것을 확인했으며, 우리의 접근 방식이 남은 지식을 효과적으로 방지하는 것을 입증했습니다.

Original Abstract

Machine unlearning offers a practical alternative to avoid full model re-training by approximately removing the influence of specific user data. While existing methods certify unlearning via statistical indistinguishability from re-trained models, these guarantees do not naturally extend to model outputs when inputs are adversarially perturbed. In particular, slight perturbations of forget samples may still be correctly recognized by the unlearned model - even when a re-trained model fails to do so - revealing a novel privacy risk: information about the forget samples may persist in their local neighborhood. In this work, we formalize this vulnerability as residual knowledge and show that it is inevitable in high-dimensional settings. To mitigate this risk, we propose a fine-tuning strategy, named RURK, that penalizes the model's ability to re-recognize perturbed forget samples. Experiments on vision benchmarks with deep neural networks demonstrate that residual knowledge is prevalent across existing unlearning methods and that our approach effectively prevents residual knowledge.

2 Citations
0 Influential
6.5 Altmetric
34.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!