2602.00175v1 Jan 30, 2026 cs.LG

망각의 환상: 초기 잠재 변수 최적화를 통한 학습되지 않은 확산 모델 공격

The Illusion of Forgetting: Attack Unlearned Diffusion via Initial Latent Variable Optimization

Manyi Li
Manyi Li
Citations: 2
h-index: 1
Yufan Liu
Yufan Liu
Citations: 132
h-index: 3
Lai Jiang
Lai Jiang
Citations: 30
h-index: 3
Bing Li
Bing Li
Citations: 82
h-index: 5
Yuming Li
Yuming Li
Citations: 2
h-index: 1
Weiming Hu
Weiming Hu
Citations: 16
h-index: 2

학습 제거 기반 방어 기법이 확산 모델(DM)에서 부적절한 콘텐츠(NSFW) 개념을 제거한다고 주장하지만, 우리는 이러한 '망각'이 대부분의 경우 착각임을 밝혀냅니다. 학습 제거는 언어적 기호와 기본 지식 간의 매핑을 부분적으로 방해하지만, 이러한 매핑은 잠재적인 기억으로 남아 있습니다. 우리는 디노이징 과정에서의 분포 차이가 얼마나 많은 매핑이 유지되는지를 측정 가능한 지표로 제공하며, 또한 학습 제거의 강도를 반영한다는 것을 발견했습니다. 이러한 점에 착안하여, 우리는 IVO(Initial Latent Variable Optimization)라는 간결하고 강력한 공격 프레임워크를 제안합니다. IVO는 재구성된 매핑을 통해 이러한 잠재적인 기억을 활성화합니다. 이미지 역전, 적대적 최적화 및 재사용 공격을 통해 IVO는 초기 잠재 변수를 최적화하여 학습된 모델의 노이즈 분포를 원래의 부적절한 상태와 일치시킵니다. 8가지 널리 사용되는 학습 제거 기법에 대한 광범위한 실험 결과, IVO는 우수한 공격 성공률과 강력한 의미적 일관성을 달성하며, 현재 방어 기법의 근본적인 결함을 드러냅니다. 코드: anonymous.4open.science/r/IVO/. 경고: 본 논문에는 부적절한 이미지가 포함되어 있어 일부 독자에게 불쾌감을 줄 수 있습니다.

Original Abstract

Although unlearning-based defenses claim to purge Not-Safe-For-Work (NSFW) concepts from diffusion models (DMs), we reveals that this "forgetting" is largely an illusion. Unlearning partially disrupts the mapping between linguistic symbols and the underlying knowledge, which remains intact as dormant memories. We find that the distributional discrepancy in the denoising process serves as a measurable indicator of how much of the mapping is retained, also reflecting the strength of unlearning. Inspired by this, we propose IVO (Initial Latent Variable Optimization), a concise and powerful attack framework that reactivates these dormant memories by reconstructing the broken mappings. Through Image Inversion}, Adversarial Optimization and Reused Attack, IVO optimizes initial latent variables to realign the noise distribution of unlearned models with their original unsafe states. Extensive experiments across 8 widely used unlearning techniques demonstrate that IVO achieves superior attack success rates and strong semantic consistency, exposing fundamental flaws in current defenses. The code is available at anonymous.4open.science/r/IVO/. Warning: This paper has unsafe images that may offend some readers.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!